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本 市 简 要 介绍 本 书 所 使 用 的 数学 符号 。 我 们 在 第 二 章 至 第 四 章 中 描述 大 多 数 数 
学 概念 ， 如 果 你 不 熟悉 任何 相应 的 数学 概念 ， 可 以 参考 对 应 的 章节 。 
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第 一 章 AS 


远 在 古 和 希腊 时 期 ， 发 明 家 就 梦想 着 创造 能 自主 思考 的 机 需 。 神 话 人 物 皮 格 马 利 
$3 (Pygmalion) 、 代 达 罗 斯 (Daedalus) 和 赫 淮 斯 托 斯 (Hephaestus) 可 以 被 看 作 传说 
中 的 发 明 家 ， 而 加 拉 带 亚 (Galatea)、 塔 洛斯 (Talos) 和 潘多拉 (Pandora) 则 可 以 被 
视 为 人 造 生 命 (Ovid and Martin, 2004; Sparkes, 1996; Tandy, 1997). 

当 人 类 第 一 次 构思 可 编程 计算 机 时 ， 就 已 经 在 思考 计算 机 能 否 变 得 智能 ( 尽管 
这 距 造 出 第 一 台 计 算 机 还 有 一 百 多 年 (Lovelace, 1842)。 如 今 ， 人 工 智 能 (artificial 
intelligence, AI) 已 经 成 为 一 个 具有 众多 实际 应 用 和 活跃 研究 课题 的 领域 , 并 且 正 在 
鞍 勃 发 展 。 我 们 期 望 通过 智能 软件 自动 地 处 理 常 规 劳 动 、 理 解 语音 或 图 像 、 帮 助 医 
学 诊断 和 支持 基础 科学 研究 。 

在 人 工 智 能 的 早期 ， 那些 对 人 类 智力 来 说 非常 困难 、 但 对 计算 机 来 说 相对 简单 
的 问题 得 到 迅速 解决 ， 比 如 ， 那 些 可 以 通过 一 系列 形式 化 的 数学 规则 来 描述 的 问题 。 
人 工 智能 的 真正 挑战 在 于 解决 那些 对 人 来 说 很 容易 执行 、 但 很 难 形 式 化 描述 的 任务 ， 
如 识别 人 们 所 说 的 话 或 图 像 中 的 脸 。 对 于 这 些 问题 ， 我 们 人 类 往往 可 以 凭借 直觉 轻 
易 地 解决 。 

针对 这 些 比较 直观 的 问题 ， 本 书 讨论 一 种 解决 方案 。 该 方案 可 以 让 计算 机 从 经 
验 中 学 习 ， 并 根据 层次 化 的 概念 体系 来 理解 世界 ， 而 每 个 概念 则 通过 与 某 些 相 对 简 
单 的 概念 之 间 的 关系 来 定义 。 让 计算 机 从 经 验 获 取 知 识 ， 可 以 避免 由 人 类 来 给 计算 
机 形式 化 地 指定 它 需 要 的 所 有 知识 。 层 次 化 的 概念 让 计算 机 构建 较 简 单 的 概念 来 学 
习 复 杂 概念 。 如 果 绘 制 出 这 些 概念 如 何 建立 在 彼此 之 上 的 图 ， 我 们 将 得 到 一 张 “ 深 ” 
(层次 很 多 ) 的 图 。 基 于 这 个 原因 ,我 们 称 这 种 方法 为 AL REF (deep learning )。 

AI 许多 早期 的 成 功 发 生 在 相对 朴素 且 形 式 化 的 环境 中 ， 而 且 不 要 求 计算 机 具 
备 很 多 关于 世界 的 知识 。 例 如 ，IBM 的 深蓝 ( Deep Blue) 国际 象棋 系统 在 1997 年 
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2 第 一 章 We 





击败 了 世界 冠军 Garry Kasparov(Hsu, 2002)。 显 然 国际 象棋 是 一 个 非常 简单 的 领域 ， 
因为 它 仅 含有 64 个 位 置 并 只 能 以 严格 限制 的 方式 移动 32 个 棋子 。 设 计 一 种 成 功 的 
国际 象棋 策略 是 巨大 的 成 就 ， 但 向 计算 机 描述 棋子 及 其 允许 的 走 法 并 不 是 挑战 的 困 
难 所 在 。 国 际 象棋 完全 可 以 由 一 个 非常 简短 的 、 完 全 形式 化 的 规则 列表 来 描述 ， 并 
可 以 容易 地 由 程序 员 事 先 准 备 好 。 

讽刺 的 是 ， 抽 象 和 形式 化 的 任务 对 人 类 而 言 是 最 困难 的 脑力 任务 之 一 ,但 对 计 
算 机 而 言 却 属于 最 容易 的 。 计 算 机 早 就 能 够 打败 人 类 最 好 的 象棋 选手 ， 但 直到 最 近 
计算 机 才 在 识别 对 象 或 语音 任务 中 达到 人 类 平均 水 平 。 一 个 人 的 日 常生 活 需 要 关于 
世界 的 巨 量 知识 。 很 多 这 方面 的 知识 是 主观 的 、 直 观 的 ， 因 此 很 难 通过 形式 化 的 方 
式 表 达 清 楚 。 计 算 机 需要 获取 同样 的 知识 才能 表现 出 智能 。 人 工 智能 的 一 个 关键 挑 
战 就 是 如 何 将 这 些 非 形式 化 的 知识 传达 给 计算 机 。 

一 些 人 工 智 能 项 目 力求 将 关于 世界 的 知识 用 形式 化 的 语言 进行 便 编码 (hard- 
code)。 计 算 机 可 以 使 用 逻辑 推理 规则 来 自动 地 理解 这 些 形 式 化 语言 中 的 申明 。 这 就 
是 众所周知 的 人 工 智能 的 知识 库 (knowledge base ) 方法 。 然 而 ;这些 项 目 最 终 都 没 
有 取得 重大 的 成 功 。 其 中 最 著名 的 项 目 是 Cyc (Lenat and Guha, 1989)。Cyc 包括 一 
个 推断 引 苟 和 一 个 使 用 CycL 语言 描述 的 声明 数据 库 。 这 些 声 明 是 由 人 类 监督 者 输 
入 的 。 这 是 一 个 笨拙 的 过 程 。 人 们 设法 设计 出 足够 复杂 的 形式 化 规则 来 精确 地 描述 世 
界 。 例 如 ，Cyc 不 能 理解 一 个 关于 名 为 Fred 的 人 在 早上 剃 须 的 故事 (Linde, 1992). 
它 的 推理 引擎 检测 到 故事 中 的 不 一 致 性 : 它 知 道人 没有 电气 零件 ,但 由 于 Fred 正 拿 
着 一 个 电动 剃 须 刀 ， 它 认为 实体 “正在 剃 须 的 Fred” (“FredWhileShaving”) 含有 电 
气 部 件 。 因 此 它 产 生 了 这 样 的 疑问 Fred 在 刮 胡子 的 时 候 是 否 仍然 是 一 个 人 。 

依 徘 硬 编码 的 知识 体系 面 对 的 困难 表明 ，AI 系统 需要 具备 自己 获取 知识 的 能 
即 从 原始 数据 中 提取 模式 的 能 力 。 这 种 能 力 被 称 为 机 器 学 习 (machine learning )。 
引入 机 融 学 习 使 计算 机 能 够 解决 涉及 现实 世界 知识 的 问题 ， 并 能 作出 看 似 主观 的 决 
策 。 比 如 , 一 个 被 称 为 逻辑 回归 (logistic regression ) 的 简单 机 器 学 习 算 法 可 以 决定 
EMEN (Mor-Yosef et al., 1990)。 而 同样 是 简单 机 带 学 习 算 法 的 朴素 贝 叶 
斯 (naive Bayes ) 则 可 以 区 分 垃圾 电子 邮件 和 合法 电子 邮件 。 

这 些 简 单 的 机 需 学 习 算 法 的 性 能 在 很 大 程度 上 依赖 于 给 定数 据 的 表示 ( repre- 
sentation ),。 例如 ， 当 催 辑 回归 被 用 于 判断 产妇 是 否 适合 剖腹 产 时 ，AI 系统 不 会 直接 
伶 查 患 者 。 相 反 ， 医 生 需 要 告诉 系统 几 条 相关 的 信息 ， 诸 如 是 否 存在 子宫 疤痕 。 表 
示 患 者 的 每 条 信息 被 称 为 一 个 特征 。 逻 辑 回归 学 习 病 人 的 这 些 特征 如 何 与 各 种 结 
相关 联 。 然 而 ， 它 丝毫 不 能 影响 该 特征 定义 的 方式 。 如 果 将 病人 的 MRI 扫描 作为 逻 
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辑 回归 的 输入 ， 而 不 是 医生 正式 的 报告 ， 它 将 无 法 作出 有 用 的 预测 。MRI 扫描 的 单 
一 像素 与 分 娩 过 程 中 并 发 证 之 间 的 相关 性 微乎其微 。 

在 整个 计算 机 科学 乃至 日 常生 活 中 ， 对 表示 的 依赖 都 是 一 个 普遍 现象 。 在 计算 
机 科学 中 ， 如 果 数 据 集合 被 精巧 地 结构 化 并 被 智能 地 索引 ， 那 么 诸如 搜索 之 类 的 操 
作 的 处 理 速度 就 可 以 成 指数 级 地 加 快 。 人 们 可 以 很 容易 地 在 阿拉 伯 数 字 的 表示 下 进 
行 算 术 运 算 ,， 但 在 罗马 数字 的 表示 下 运算 会 比较 耗 时 。 因 此 ， 毫 不 奇怪 ， 表 示 的 选择 
会 对 机 器 学 习 算法 的 性 能 产生 巨大 的 影响 。 图 1.1 展示 了 一 个 简单 的 可 视 化 例子 。 





Cartesian coordinates Polar coordinates 

















图 1.1: 不 同 表示 的 例子 : 假设 我 们 想 在 散 点 图 中 画 一 条 线 来 分 隔 两 类 数据 。 在 左 图 ,我们 使 用 笛 
卡尔 坐标 表示 数据 ， 这 个 任务 是 不 可 能 的 。 右 图 中 ,我 们 用 极 坐标 表示 数据 ， 可 以 用 垂直 线 简单 地 
解决 这 个 任务 。( 与 David Warde-Farley 合作 画 出 此 图 。 





















































许多 人 工 智 能 任务 都 可 以 通过 以 下 方式 解决 : 先 提取 一 个 合适 的 特征 集 ， 然 后 
将 这 些 特 征 提供 给 简单 的 机 器 学 习 算 法 。 例 如 ， 对 于 通过 声音 鉴别 说 话 者 的 任务 来 
说 ,一 个 有 用 的 特征 是 对 其 声 道 大 小 的 估计 。 这 个 特征 为 判断 说 话 者 是 男性 、 女 性 
还 是 儿童 提供 了 有 力 线索 。 

然而 ， 对 于 许多 任务 来 说 ， 我 们 很 难 知道 应 该 提取 哪些 特征 。 例 如 ， 假 设 我 们 想 
编写 一 个 程序 来 检测 照片 中 的 车 。 我 们 知道 ， 汽 车 有 轮子 ， 所 以 我 们 可 能 会 想 用 车 
轮 的 存在 与 否 作为 特征 。 不 幸 的 是 ， 我 们 难以 准确 地 根据 像素 值 来 描述 车 轮 看 上 去 
像 什么 。 虽 然 车 轮 具 有 简单 的 几何 形状 ， 但 它 的 图 像 可 能 会 因 场 景 而 异 ， 如 落 在 车 
轮 上 的 阴影 、 太 阳 照 之 的 车 轮 的 金属 零件 、 汽 车 的 挡 泥 板 或 者 遮挡 的 车 轮 一 部 分 的 
前 景物 体 等 等 。 

解决 这 个 问题 的 途径 之 一 是 使 用 机 器 学 习 来 发 据 表 示 本 喘 ， 而 不 仅仅 把 表示 映 
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射 到 输出 。 这 种 方法 我 们 称 之 为 表示 学 习 (representation learning )。 学 习 到 的 表 
示 往 往 比 手 动 设计 的 表示 表现 得 更 好 。 并 且 它 们 只 需 最 少 的 人 工 干 预 ， 就 能 让 AI 系 
统 迅速 适 应 新 的 任务 。 表 示 学 习 算 法 只 需 几 分 钟 就 可 以 为 简单 的 任务 发 现 一 个 很 好 
的 特征 集 ， 对 于 复杂 任务 则 需要 几 小 时 到 几 个 月 。 手 动 为 一 个 复杂 的 任务 设计 特征 
需要 耗费 大 量 的 人 工时 间 和 精力 ; 其 至 需要 花费 整个 社 群 研究 人 员 几 十 年 的 时 间 。 

表示 学 习 算 法 的 典型 例子 是 自 编码 器 ( autoencoder )。 自 编码 右 由 一 个 编码 器 
(encoder ) 函数 和 一 个 解码 器 (decoder ) 函数 组 合 而 成 。 编 码 器 函数 将 输入 数据 转 
换 为 一 种 不 同 的 表示 ， 而 解码 器 函数 则 将 这 个 新 的 表示 转换 到 原来 的 形式 。 我 们 期 
望 当 输入 数据 经 过 编码 器 和 解码 器 之 后 尽 可 能 多 地 保留 信息 ， 同 时 希望 新 的 表示 有 
各 种 好 的 特性 ， 这 也 是 自 编 码 需 的 训练 目标 。 为 了 实现 不 同 的 特性 ， 我 们 可 以 设计 
不 同形 式 的 自 编 码 器 。 

当 设 计 特 征 或 设计 用 于 学 习 特 征 的 算法 时 ， 我 们 的 目标 通常 是 分 离 出 能 解释 观 
察 数据 的 变 差 因素 ( factors of variation )。 在 此 背景 下 , “因素 ”这 个 词 仅 指 代 影 响 
的 不 同 来 源 ; 因素 通常 不 是 乘 性 组 合 。 这 些 因素 通常 是 不 能 被 直接 观察 到 的 量 。 相 
B, 它们 可 能 是 现实 世界 中 观察 不 到 的 物体 或 者 不 可 观测 的 力 ， 但 会 影响 可 观测 的 
量 。 为 了 对 观察 到 的 数据 提供 有 用 的 简化 解释 或 推断 其 原因 ， 它 们 还 可 能 以 概念 的 
形式 存在 于 人 类 的 思维 中 。 它 们 可 以 被 看 作 数据 的 概念 或 者 抽象 ， 帮 助 我 们 了 解 这 
些 数据 的 丰富 多 样 性 。 当 分 析 语 音 记 录 时 ,， 变 差 因素 包括 说 话 考 的 年 龄 、 性 别 、 他 们 
的 口音 和 他 们 正在 说 的 词语 。 当 分 析 汽 车 的 图 像 时 ， 变 差 因 素 包 括 汽车 的 位 置 、 它 
的 颜色 、 太 阳 的 角度 和 亮度 。 

在 许多 现实 的 人 工 智能 应 用 中 ， 困 难 主 要 源 于 多 个 变 差 因素 同时 影响 着 我 们 能 
够 观察 到 的 每 一 个 数据 。 比 如 ， 在 一 张 包含 红色 汽车 的 图 片 中 ， 其 单个 像素 在 夜间 
可 能 会 非常 接近 黑色 。 汽 车 轮廓 的 形状 取决 于 视角 。 大 多 数 应 用 需要 我 们 理 清 变 差 
因素 并 和 忽略 我 们 不 关心 的 因素 。 

显然 ,从 原始 数据 中 提取 如 此 高 层次 、 抽 象 的 特征 是 非常 困难 的 。 许 多 诸如 说 话 
口音 这 样 的 变 差 因素 ， 只 能 通过 对 数据 进行 复杂 的 、 接 近 人 类 水 平 的 理解 来 辨识 。 这 
几乎 与 获得 原 问 题 的 表示 一 样 困难 ， 因 此 ， 乍 一 看 ， 表 示 学 习 似 乎 并 不 能 帮助 我 们 。 

REFI (deep learning ) 通过 其 他 较 简 单 的 表示 来 表达 复杂 表示 ， 解 决 了 表 
示 学 习 中 的 核心 问题 。 

深度 学 习 让 计算 机 通过 较 简 单 概念 构建 复杂 的 概念 。 图 1.2 展示 了 深度 学 习 系 统 
如 何 通 过 组 合 较 简单 的 概念 (例如 转角 和 轮廓 ， 它 们 转 而 由 边线 定义 ) 来 表示 图 像 
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1.2: 深度 学 习 模 型 的 示意 图 。 计 算 机 难以 理解 原始 感 观 输入 数据 的 含义 ， 如 表示 为 像素 值 集合 
的 图 像 。 将 一 组 像素 映射 到 对 象 标识 的 函数 非常 复杂 。 如 果 直 接 处 理 ， 学 习 或 评估 此 映射 似乎 是 
不 可 能 的 。 座 度 学 习 将 所 需 的 复杂 映射 分 解 为 一 系列 恋 套 的 简单 映射 〈 每 个 由 模型 的 不 同 层 描述 ) 
来 解决 这 一 难题 。 输 入 展示 在 可 见 层 (visible layer )， 这 样 命名 的 原因 是 因为 它 包 含 我 们 能 观察 
到 的 变量 。 然 后 是 一 系列 从 图 像 中 提取 越 来 越 多 抽象 特征 的 隐藏 层 (hidden layer )。 因 为 它们 的 
值 不 在 数据 中 给 出 ， 所 以 将 这 些 层 称 为 “隐藏 ”; 模型 必须 确定 哪些 概念 有 利于 解释 观察 数据 中 的 
关系 。 这 里 的 图 像 是 每 个 隐藏 单元 表示 的 特征 的 可 视 化 。 给 定 像素 , 第 一 层 可 以 轻易 地 通过 比较 相 
邻 像素 的 亮度 来 识别 边缘 。 有 了 第 一 隐藏 层 描述 的 边缘 ， 第 二 隐藏 层 可 以 容易 地 搜索 可 识别 为 角 
和 扩展 轮廓 的 边 集合 。 给 定 第 二 隐藏 层 中 关于 角 和 轮廓 的 图 像 描述 ， 第 三 隐藏 层 可 以 找到 轮廓 和 
角 的 特定 集合 来 检测 特定 对 象 的 整个 部 分 。 最 后 ， 根 据 图 像 描述 中 包含 的 对 象 部 分 ， 可 以 识别 图 
像 中 存在 的 对 象 。 经 Zeiler and Fergus (2014) 许可 转载 此 图 。 


















































中 人 的 概念 。 深 度 学 习 模 型 的 典型 例子 是 前 馈 深度 网 络 或 多 层 感知 机 ( multilayer 
perceptron, MLP )。 多 层 感知 机 仅仅 是 一 个 将 一 组 输入 值 映射 到 输出 值 的 数学 函数 。 
该 函数 由 许多 较 简 单 的 函数 复合 而 成 。 我 们 可 以 认为 不 同 数学 函数 的 每 一 次 应 用 都 
为 输入 提供 了 新 的 表示 。 

学 习 数 据 的 正确 表示 的 想法 是 解释 深度 学 习 的 一 个 视角 。 另 一 个 视角 是 深度 促 
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使 计算 机 学 习 一 个 多 步骤 的 计算 机 程序 。 每 一 层 表 示 都 可 以 被 认为 是 并 行 执行 另 一 
组 指令 之 后 计算 机 的 存储 器 状态 。 更 深 的 网 络 可 以 按 顺 序 执行 更 多 的 指令 。 顺 序 指 
令 提供 了 极 大 的 能 力 ， 因 为 后 面 的 指令 可 以 参考 早期 指令 的 结果 。 从 这 个 角度 上 看 ， 
在 某 层 激 活 函 数 里 ， 并 非 所 有 信息 都 蕴涵 着 解释 输入 的 变 差 因素 。 表 示 还 存储 着 状 
态 信息 ， 用 于 帮助 程序 理解 输入 。 这 里 的 状态 信息 类 似 于 传统 计算 机 程序 中 的 计数 
器 或 指针 。 它 与 具体 的 输入 内 容 无 关 , 但 有 助 于 模型 组 织 其 处 理 过 程 。 

目前 主要 有 两 种 度量 模型 深度 的 方式 。 第 一 种 方式 是 基于 评 信 架构 所 需 执行 的 
顺序 指令 的 数目 。 假 设 我 们 将 模型 表示 为 给 定 输入 后 ， 计 算 对 应 输出 的 流程 图 ， 则 
可 以 将 这 张 流程 图 中 的 最 长 路 径 视 为 模型 的 深度 。 正 如 两 个 使 用 不 同 语言 编写 的 等 
价 程序 将 具有 不 同 的 长 度 ; 相同 的 函数 可 以 被 绘制 为 具有 不 同 深度 的 流程 图 ， 其 深 
度 取决 于 我 们 可 以 用 来 作为 一 个 步 又 的 函数 。 图 1.3 说 明了 语言 的 选择 如 何 给 相同 的 
架构 两 个 不 同 的 衡量 。 











Element 
Set 





图 1.3: 将 输入 映射 到 输出 的 计算 图 表 的 示意 图 ， 其 中 每 个 节点 执行 一 个 操作 。 深 度 是 从 输入 到 输 
出 的 最 长 路 径 的 长 度 , 但 这 取决 于 可 能 的 计算 步 又 的 定义 。 这 些 图 中 所 示 的 计算 是 逻辑 回归 模型 的 
输出 ，o(w”z)， 其 中 o 是 logistic sigmoid 函数 。 如 果 我 们 使 用 加 法 、 乘 法 和 logistic sigmoid 作 
为 我 们 计算 机 语言 的 元 素 ， 那 么 这 个 模型 深度 为 三 。 如 果 我 们 将 逻辑 回归 视 为 元 素 本 身 ， 那 么 这 
个 模型 深度 为 一 。 




















另 一 种 是 在 深度 概率 模型 中 使 用 的 方法 ， 它 不 是 将 计算 图 的 深度 视 为 模型 深度 ， 
而 是 将 描述 概念 彼此 如 何 关联 的 图 的 深度 视 为 模型 深度 。 在 这 种 情况 下 ， 计 算 每 个 
概念 表示 的 计算 流程 图 的 深度 可 能 比 概念 本 身 的 图 更 深 。 这 是 因为 系统 对 较 简单 概 
念 的 理解 在 给 出 更 复杂 概念 的 信息 后 可 以 进一步 精细 化 。 例 如 ， 一 个 AI 系统 观察 其 
中 一 只 眼睛 在 阴影 中 的 脸 部 图 像 时 ， 它 最 初 可 能 只 看 到 一 只 眼睛 。 但 当 检测 到 脸 部 
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的 存在 后 ， 系 统 可 以 推断 第 二 只 眼睛 也 可 能 是 存在 的 。 在 这 种 情况 下 ， 概 念 的 图 仅 
包括 两 层 (关于 眼睛 的 层 和 关于 脸 的 层 )， 但 如 果 我 们 细 化 每 个 概念 的 估计 将 需要 额 
外 的 n 次 计算 ， 即 计算 的 图 将 包含 2n 层 。 

由 于 并 不 总 是 清楚 计算 图 的 深度 或 概率 模型 图 的 深度 哪 一 个 是 最 有 意义 的 ， 并 
且 由 于 不 同 的 人 选择 不 同 的 最 小 元 素 集 来 构建 相应 的 图 ， 因 此 就 像 计算 机 程序 的 长 
度 不 存在 单一 的 正确 值 一 样 ， 架 构 的 深度 也 不 存在 单一 的 正确 值 。 另 外 ， 也 不 存在 
模型 多 么 深 才 能 被 修饰 为 “ 深 ” 的 共识 。 但 相 比 传统 机 器 学 习 ， 深 度 学 习 人 研究 的 模型 
涉及 更 多 学 到 功能 或 学 到 概念 的 组 合 ， 这 点 址 庸 置疑 。 

总 之 ， 这 本 书 的 主题 一 一 深度 学 习 是 通 向 人 工 智 能 的 途径 之 一 。 具 体 来 说 ， 它 
是 机 器 学 习 的 一 种 ， 一 种 能 够 使 计算 机 系统 从 经 验 和 数据 中 得 到 提高 的 技术 。 我 们 
坚信 机 器 学 习 可 以 构建 出 在 复杂 实际 环境 下 运行 的 AI ABE, 并且 是 唯一 切实 可 行 的 
方法 。 深 度 学 习 是 一 种 特定 类 型 的 机 器 学 习 ， 具 有 强大 的 能 力 和 灵活 性 ， 它 将 大 千 
世界 表示 为 能 套 的 层次 概念 体系 (由 较 简 单 概念 间 的 联系 定义 复杂 概念 、 从 一 般 抽 
象 概括 到 高 级 抽象 表示 ) 图 1.4 说 明了 这 些 不 同 的 AI 学 科 之 间 的 关系 。 图 1.5 展 示 
了 每 个 学 科 如 何 工 作 的 高 层次 原理 。 
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图 1.4: 维 恩 图 展示 了 深度 学 习 是 一 种 表示 学 习 ， 也 是 一 种 机 器 学 习 ， 可 以 用 于 许多 但 不 是 4 


人 部 ) 











AI 方法 。 维 恩 图 的 每 个 部 分 包括 一 个 AI 技术 的 示例 。 
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图 1.5: 流程 图 展示 了 AI 系统 的 不 同 部 分 如 何在 不 同 的 AI 学 科 中 彼此 相关 。 阴 影 框 表示 能 从 数 
据 中 学 习 的 组 件 。 
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wh 


1.1 ”本 书面 向 的 读者 


这 本 书 对 各 类 读者 都 有 一 定 用 处 ， 但 我 们 主要 是 为 两 类 受众 对 象 而 写 的 。 其 中 
一 类 受众 对 象 是 学 习 机 器 学 习 的 大 学 生 《〈 本 科 或 研究 生 )， 包 括 那 些 已 经 开始 职 ， 
生涯 的 深度 学 习 和 人 工 智 能 研究 者 。 另 一 类 受众 对 象 是 没有 机 天 学 习 或 统计 背景 但 
希望 能 快速 地 掌握 这 方面 知识 并 在 他 们 的 产品 或 平台 中 使 用 深度 学 习 的 软件 工程 师 。 
深度 学 习 在 许多 软件 领域 都 已 被 证 明 是 有 用 的 ， 包 括 计 算 机 视觉 、 语 音 和 音频 处 理 、 
自然 语言 处 理 、 机 器 人 技术 、 生 物 信息 学 和 化 学 、 电 子 游 戏 、 搜 索引 擎 、 网 络 广告 和 
金融 。 

为 了 最 好 地 服务 各 类 读者 ， 我 们 将 本 书 组 织 为 三 个 部 分 。 第 一 部 分 介绍 基本 的 
数学 工具 和 机 咒 学 习 的 概念 。 第 二 部 分 介绍 最 成 熟 的 深度 学 习 算 法 ,这些 技术 基本 
上 已 经 得 到 解决 。 第 三 部 分 讨论 某 些 具有 展望 性 的 想法 ， 它 们 被 广泛 地 认为 是 深度 
学 习 未 来 的 研究 重点 。 

读者 可 以 随意 跳 过 不 感 兴趣 或 与 自己 背景 不 相关 的 部 分 。 熟悉 线性 代数 、 概 率 
和 基本 机 带 学 习 概 念 的 读者 可 以 跳 过 第 一 部 分 ， 例 如 ， 当 读者 只 是 想 实现 一 个 能 工 
作 的 系统 则 不 需要 阅读 超出 第 二 部 分 的 内 容 。 为 了 帮助 读者 选择 章节 ， 图 1.6 展示 了 
这 本 书 的 高 层 组 织 结构 的 流程 图 。 

我 们 假设 所 有 读者 都 具备 计算 机 科学 背景 。 也 假设 读者 熟悉 编程 ， 并 且 对 计算 
的 性 能 问题 、 复 杂 性 理论 、 入 门 级 微 积 分 和 一 些 图 论 术语 有 基本 的 了 解 。 
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1. Introduction 


Part I: Applied Math and Machine Learning Basics 


; 3. Probability and 
2: Linear Algebra Information Theory 


Part II: Deep Networks: Modern Practices 


6. Deep Feedforward 
Networks 


7. Regularization 


12. Applications 


; > 17. Monte Carlo 
Probabilistic Models Methods 


x 18. Partition 
19. Inference A 
Function 


20. Deep Generative 
Models 





图 1.6: 本 书 的 高 层 组 织 。 从 一 章 到 另 一 章 的 箭头 表示 前 一 章 是 理解 后 一 曹 的 必 备 内 容 。 
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通过 历史 背景 了 解 深度 学 习 是 最 简单 的 方式 。 这 里 我 们 仅 指出 深度 学 习 的 几 个 
关键 趋势 ， 而 不 是 提供 其 详细 的 历史 : 
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。 深度 学 习 有 着 悠久 而 丰富 的 历史 ， 但 随 着 许多 不 同 哲学 观点 的 渐渐 消逝 ， 与 之 
对 应 的 名 称 也 渐渐 尘封 。 


。 随 着 可 用 的 训练 数据 量 不 断 增加 ， 深 度 学 习 变 得 更 加 有 用 。 


o 随 着 时 间 的 推移 ， 针 对 深度 学 习 的 计算 机 软 硬 件 基础 设施 都 有 所 改善 ， 深 度 学 
习 模型 的 规模 也 随 之 增长 。 


。 随 着 时 间 的 推移 ， 深 度 学 习 已 经 解决 日 益 复 杂 的 应 用 ， 并 且 精 度 不 断 提 高 。 


1.2.1 神经 网 络 的 众多 名 称 和 命运 变迁 


我 们 期 待 这 本 书 的 许多 读者 都 听 说 过 深度 学 习 这 一 激动 人 心 的 新 技术 ， 并 对 一 
本 书 提 及 一 个 新 兴 领 域 的 “历史 ”而 感到 惊讶 。 事 实 上 ,深度 学 习 的 历史 可 以 追溯 到 
20 世纪 40 年 代 。 深 度 学 习 看 似 是 一 个 全 新 的 领域 ， 只 不 过 因为 在 目前 流行 的 前 几 
年 它 是 相对 冷门 的 ， 同 时 也 因为 它 被 赋予 了 许多 不 同 的 名 称 〈 其 中 大 部 分 已 经 不 再 
使 用 )， 最 近 才 成 为 众所周知 的 “深度 学 习 ”。 这 个 领域 已 经 更 换 了 很 多 名 称 ， 它 反映 
了 不 同 的 研究 人 员 和 不 同 观点 的 影响 。 

全 面 地 讲述 深度 学 习 的 历史 超出 了 本 书 的 范围 。 然而, 一 些 基 本 的 背景 对 理解 深 
度 学 习 是 有 用 的 。 一般 来 说 ， 目 前 为 止 深度 学 习 已 经 经 历 了 三 次 发 展 浪潮 : 20 世纪 
40 年 代 到 60 年 代 深 度 学 习 的 雏形 出 现在 控制 论 (cybernetics) H, 20 世纪 80 年 代 
到 90 年 代 深 度 学 习 表 现 为 联结 主义 (connectionism )， 直 到 2006 年 ， 才 真正 以 次 
度 学 习 之 名 复兴 。 图 1.7 给 出 了 定量 的 展示 。 

我 们 今天 知道 的 一 些 最 早 的 学 习 算 法 ， 是 旨 在 模拟 生物 学 习 的 计算 模型 ， 即 大 
脑 怎样 学 习 或 为 什么 能 学 习 的 模型 。 其 结果 是 深度 学 习 以 人 工 神经 网 络 (artificial 
neural network, ANN) 之 名 而 淡 去 。 彼 时 ， 深 度 学 习 模 型 被 认为 是 受 生物 大 脑 (无 
论 人 类 大 脑 或 其 他 动物 的 大 脑 ) 所 启发 而 设计 出 来 的 系统 。 尽 管 有 些 机 器 学 习 的 神 
经 网 络 有 时 被 用 来 理解 大 脑 功能 (Hinton and Shallice, 1991), ， 但 它们 一 般 都 没有 被 
设计 成 生物 功能 的 真实 模型 。 深 度 学 习 的 神经 观点 受 两 个 主要 思想 启发 。 一 个 想法 
是 大 脑 作为 例子 证 明智 能 行为 是 可 能 的 ， 因 此 ， 概 念 上 ， 建 立 智能 的 直接 途径 是 逆 
向 大 脑 背 后 的 计算 原理 ， 并 复制 其 功能 。 另 一 种 看 法 是 ， 理 解 大 脑 和 人 类 智能 背后 
的 原理 也 非常 有 趣 ， 因 此 机 器 学 习 模 型 除了 解决 工程 应 用 的 能 力 ， 如 果 能 让 人 类 对 
这 些 基本 的 科学 问题 有 进一步 的 认识 也 将 会 很 有 用 。 
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图 1.7: 根据 Google 图 书 中 短语 “控制 论 *、“ 联 结 主义 ”或 “神经 网 络 ” 频 率 衡量 的 人 工 神 经 网 
络 研 究 的 历史 浪潮 (图 中 展示 了 三 次 浪潮 的 前 两 次 ,第 三 次 最 近 才 出 现 )。 第 一 次 浪潮 开始 于 
20 世纪 40 年 代 到 20 世纪 60 年 代 的 控制 论 ， 随 着 生物 学 习 理 论 的 发 展 (McCulloch and Pitts, 
1943; Hebb, 1949) 和 第 一 个 模型 的 实现 ( 如 感知 机 (Rosenblatt, 1958) ) ， 能 实现 单个 神经 元 的 
训练 。 第 二 次 浪潮 开始 于 1980-1995 年 间 的 联结 主义 方法 ， 可 以 使 用 反 向 传播 (Rumelhart et al., 
1986a) 训练 具有 一 两 个 隐藏 层 的 神经 网 络 。 当 前 第 三 次 浪潮 ， 也 就 是 深度 学 习 ， 大 约 始 于 2006 年 
(Hinton et al., 2006a; Bengio et al., 2007a; Ranzato et al., 2007a), 并 且 现 在 在 2016 年 以 书 的 形 
式 出 现 。 另 外 两 次 浪潮 类 似 地 出 现在 书 中 的 时 间 比 相应 的 科学 活动 晚 得 多 。 

































































现代 术语 “深度 学 习 ” 超 越 了 目前 机 还 学 习 模 型 的 神经 科学 观点 。 它 诉 诸 于 学 
习 多 层次 组 合 这 一 更 普遍 的 原理 ， 这 一 原理 也 可 以 应 用 于 那些 并 非 受 神经 科学 启发 
的 机 器 学 习 框 架 。 

现代 深度 学 习 的 最 早 前 身 是 从 神经 科学 的 角度 出 发 的 简单 线性 模型 。 这 些 模 型 
被 设计 为 使 用 一 组 n 个 输入 a1, ... zw, 并 将 它们 与 一 个 输出 y 相关 联 。 这 些 模型 希 
望 学 习 一 组 权重 wi,.….,w,， 并 计算 它们 的 输出 Ac w) = ziwi 十 … 十 zwn。 如 
图 1.7 所 示 ， 这 第 一 波 神经 网 络 研 究 浪潮 被 称 为 控制 论 。 

McCulloch-Pitts 神经 元 (McCulloch and Pitts, 1943) 是 脑 功能 的 早期 模型 。 该 
线性 模型 通过 检验 函数 f(x, w) 的 正 负 来 识别 两 种 不 同类 别 的 输入 。 显 然 ， 模 型 的 
权重 需要 正确 设置 后 才能 使 模型 的 输出 对 应 于 期 望 的 类 别 。 这 些 权重 可 以 由 操作 人 
员 设 定 。 在 20 世纪 50 年 代 ， 感 知 机 (Rosenblatt, 1956, 1958) 成 为 第 一 个 能 根据 
每 个 类 别 的 输入 样本 来 学 习 权重 的 模型 。 约 在 同一 时 期 ， 自 适应 线性 单元 (adaptive 
linear element, ADALINE) 简单 地 返回 函数 f(z) 本 里 的 值 来 预测 一 个 实数 (Widrow 
and Hoff, 1960)， 并 且 它 还 可 以 学 习 从 数据 预测 这 些 数 。 
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这 些 简单 的 学 习 算 法 大 大 影响 了 机 器 学 习 的 现代 景象 。 用 于 调节 ADALINE 权 
重 的 训练 算法 是 被 称 为 随机 梯度 下 降 (stochastic gradient descent ) 的 一 种 特例 。 稍 
加 改进 后 的 随机 梯度 下 降 算 法 仍然 是 当今 深度 学 习 的 主要 训练 算法 。 

基于 感知 机 和 ADALINE 中 使 用 的 函数 f(x, w) 的 模型 被 称 为 线性 模型 (linear 
model )。 尽 管 在 许多 情况 下 ， 这 些 模型 以 不 同 于 原始 模型 的 方式 进行 训练 ， 但 仍 是 
目前 最 广泛 使 用 的 机 器 学 习 模 型 。 

线性 模型 有 很 多 局 限 性 。 最 著名 的 是 ， 它 们 无 法 学 习 异 或 (XOR ) 函数 ， 即 
f({0,1], =1 和 了 (1,0],w) =1, 但 f([1,1],w) =0 和 了 ([0,0],w) = 0。 观察 到 线 
性 模型 这 个 缺陷 的 批评 者 对 受 生物 学 启发 的 学 习 普 遍地 产生 了 抵触 (Minsky and 
Papert, 1969)。 这 导 臻 了 神经 网 络 热 潮 的 第 一 次 大 衰退 。 

现在 ， 神 经 科学 被 视 为 深度 学 习 研 究 的 一 个 重要 灵感 来 源 ， 但 它 已 不 再 是 该 领 
域 的 主要 指导 。 

如 今 神经 科学 在 深度 学 习 人 研究 中 的 作用 被 前 弱 ， 主 要 原因 是 我 们 根本 没有 足够 
的 关于 大 脑 的 信息 来 作为 指导 去 使 用 它 。 要 获得 对 被 大 脑 实际 使 用 算法 的 深刻 理解 ， 
我 们 需要 有 能力 同 时 监测 ( 至少 是 ) 数 千 相 连 神经 元 的 活动 。 我 们 不 能 够 做 到 这 一 
点 ， 所 以 我 们 甚至 连 大 脑 最 简单 、 最 深入 研究 的 部 分 都 还 远 远 没有 理解 (Olshausen 
and Field, 2005). 

神经 科学 已 经 给 了 我 们 依靠 单一 深度 学 习 算 法 解决 许多 不 同 任务 的 理由 。 神 经 
学 家 们 发 现 , 如果 将 雪 用 的 大 脑 重新 连接 ,使 视觉 信号 传送 到 听觉 区 域 , 它们 可 以 学 
会 用 大 脑 的 听觉 处 理 区 域 去 “A” (Von Melchner et al., 2000)。 这 暗示 着 大 多 数 哺乳 
动物 的 大 脑 能 够 使 用 单一 的 算法 就 可 以 解决 其 大 脑 可 以 解决 的 大 部 分 不 同 任务 。 在 
这 个 假设 之 前 ， 机 器 学 习 研 究 是 比较 分 散 的 ， 研 究 人 员 在 不 同 的 社 群 研究 自然 语言 
处 理 、 计 算 机 视觉 、 运 动 规划 和 语音 识别 。 如 今 ， 这 些 应 用 社 群 仍然 是 独立 的 , 但 是 
对 于 深度 学 习 研 究 团 体 来 说 ， 同 时 研究 许多 或 其 至 所 有 这 些 应 用 领域 是 很 常见 的 。 

我 们 能 够 从 神经 科学 得 到 一 些 粗略 的 指南 。 仅 通过 计算 单元 之 间 的 相互 作用 而 
变 得 智能 的 基本 思想 是 受 大 脑 启 发 的 。 新 认 知 机 (Fukushima, 1980) 受 哺乳 动物 视 
觉 系 统 的 结构 启发 ,引入 了 一 个 处 理 图 片 的 强大 模型 架构 ， 它 后 来 成 为 了 现代 卷 积 
网 络 的 基础 (LeCun et al., 1998b) (我 们 将 会 在 第 9.10 节 看 到 )。 目 前 大 多 数 神经 网 
络 是 基于 一 个 称 为 整流 线性 单元 (rectified linear unit ) 的 神经 单元 模型 。 原 始 认 
知 机 (Fukushima, 1975) 受 我 们 关于 大 脑 功能 知识 的 启发 ， 引 入 了 一 个 更 复杂 的 版 
本 。 简 化 的 现代 版 通过 吸收 来 自 不 同 观点 的 思想 而 形成 ，Nair and Hinton (2010b) 
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和 Glorot et al. (2011a) 援引 神经 科学 作为 影响 ，Jarrett et al. (2009a) 援引 更 多 面 
向 工程 的 影响 。 虽 然 神经 科学 是 灵感 的 重要 来 源 ， 但 它 不 需要 被 视 为 刚性 指导 。 我 
们 知道 ， 真 实 的 神经 元 计算 着 与 现代 整流 线性 单元 非常 不 同 的 函数 ， 但 更 接近 真实 
神经 网 络 的 系统 并 没有 导致 机 器 学 习性 能 的 提升 。 此 外 ， 虽 然 神 经 科学 已 经 成 功 地 
启发 了 一 些 神经 网 络 架 构 ， 但 我 们 对 用 于 神经 科学 的 生物 学 习 还 没有 足够 多 的 了 解 ， 
因此 也 就 不 能 为 训练 这 些 架 构 用 的 学 习 算 法 提供 太 多 的 借鉴 。 

媒体 报道 经 常 强调 深度 学 习 与 大 脑 的 相似 性 。 的 确 ， 深 度 学 习 研 究 者 比 其 他 机 
器 学 习 领 域 ( 如 核 方 法 或 贝 叶 斯 统计 ) 的 研究 者 更 可 能 地 引用 大 脑 作为 影响 ， 但 是 
大 家 不 应 该 认为 深度 学 习 在 尝试 模拟 大 脑 。 现 代 深 度 学 习 从 许多 领域 获取 灵感 ， 特 
别 是 应 用 数学 的 基本 内 容 如 线性 代数 、 概 率 论 、 信 息 论 和 数值 优化 。 尽 管 一 些 深度 
学 习 的 研究 人 员 引 用 神经 科学 作为 灵感 的 重要 来 源 ， 然 而 其 他 学 者 完全 不 关心 神经 
科学 。 

值得 注意 的 是 ， 了 解 大 脑 是 如 何在 算法 层面 上 工作 的 尝试 确实 存在 且 发 展 良好 。 
这 项 尝试 主要 被 称 为 “计算 神经 科学 ”， 并且 是 独立 于 深度 学 习 的 领域 。 研 究 人 员 在 
两 个 领域 之 间 来 回 研究 是 很 常见 的 。 深 度 学 习 领 域 主要 关注 如 何 构建 计算 机 系统 ， 
从 而 成 功 解决 需要 智能 才能 解决 的 任务 ， 而 计算 神经 科学 领域 主要 关注 构建 大 脑 如 
何 真 实 工作 的 比较 精确 的 模型 。 

在 20 世纪 80 年 代 ， 神 经 网 络 研究 的 第 二 次 浪潮 在 很 大 程度 上 是 伴随 一 个 被 称 
为 联结 主义 ( connectionism ) 或 并 行 分 布 处 理 ( parallel distributed processing) 潮 
流 而 出 现 的 (Rumelhart etal., 1986d; McClelland et al., 1995)。 联 结 主义 是 在 认 知 
科学 的 背景 下 出 现 的 。 认 知 科学 是 理解 思维 的 跨 学 科 途 径 ， 即 它 融 合 多 个 不 同 的 分 
析 层 次 。 在 20 世纪 80 年 代 初 期 ， 大 多 数 认 知 科学 家 研究 符号 推理 模型 。 尽 管 这 很 
流行 ， 但 符号 模型 很 难 解释 大 脑 如 何 真正 使 用 神经 元 实现 推理 功能 。 联 结 主义 者 开 
始 研究 真正 基于 神经 系统 实现 的 认 知 模型 (Touretzky and Minton, 1985)， 其 中 很 
多 复苏 的 想法 可 以 追溯 到 心理 学 家 Donald Hebb 在 20 世纪 40 年 代 的 工作 (Hebb, 
1949)。 

联结 主义 的 中 心思 想 是 ， 当 网 络 将 大 量 简 单 的 计算 单元 连接 在 一 起 时 可 以 实现 
智能 行为 。 这 种 见解 同样 适用 于 生物 神经 系统 中 的 神经 元 ， 因 为 它 和 计算 模型 中 隐 
藏 单元 起 着 类 似 的 作用 。 

在 上 世纪 80 年 代 的 联结 主义 期 间 形成 的 几 个 关键 概念 在 今天 的 深度 学 习 中 仍然 
是 非常 重要 的 。 
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其 中 一 个 概念 是 分 布 式 表示 (distributed representation ) (Hinton et al., 1986). 
其 思想 是 : 系统 的 每 一 个 输入 都 应 该 由 多 个 特征 表示 ， 并 且 每 一 个 特征 都 应 该 参与 
到 多 个 可 能 输入 的 表示 。 例 如 ， 假 设 我 们 有 一 个 能 够 识别 红色 、 绿 色 、 或 蓝 色 的 汽 
车 、 卡 车 和 乌 类 的 视觉 系统 ,表示 这 些 输入 的 其 中 一 个 方法 是 将 九 个 可 能 的 组 合 : 红 
卡车 ， 红 汽车 ， 红 鸟 ， 绿 卡车 等 等 使 用 单独 的 神经 元 或 隐藏 单元 激活 。 这 需要 九 个 
不 同 的 神经 元 ， 并 且 每 个 神经 必须 独立 地 学 习 颜 色 和 对 象 身 份 的 概念 。 改 善 这 种 情 
况 的 方法 之 一 是 使 用 分 布 式 表示 ， 即 用 三 个 神经 元 描述 颜色 ， 三 个 神经 元 描述 对 象 
身份 。 这 仅仅 需要 6 个 神经 元 而 不 是 9 个 ， 并 且 描 述 红色 的 神经 元 能 够 从 汽车 、 卡 
车 和 鸟 类 的 图 像 中 学 习 红 色 ， 而 不 仅仅 是 从 一 个 特定 类 别 的 图 像 中 学 习 。 分 布 式 表 
示 的 概念 是 本 书 的 核心 ， 我 们 将 在 第 十 五 章 中 更 加 详细 地 描述 。 

联结 主义 潮流 的 男 一 个 重要 成 就 是 反 向 传播 在 训练 具有 内 部 表示 的 深度 神经 网 
络 中 的 成 功 使 用 以 及 反 向 传播 算法 的 普及 (Rumelhart et al., 1986c; LeCun, 1987). 
这 个 算法 虽然 曾 点 然 失 色 不 再 流行 ， 但 截至 写 书 之 时 ， 它 仍 是 训练 深度 模型 的 主导 

在 20 世纪 90 ER, 研究 人 员 在 使 用 神经 网 络 进行 序列 建 模 的 方面 取得 了 重 
要 进展 。Hochreiter (1991b) 和 Bengio et al. (1994a) 指出 了 对 长 序列 进行 建 模 的 一 
些 根本 性 数学 难题 ， 这 将 在 第 10.7 节 中 描述 。Hochreiter and Schmidhuber (1997) 
引入 长 短期 记忆 (long short-term memory, LSTM ) 网 络 来 解决 这 些 难题 。 如 今 ， 
LSTM 在 许多 序列 建 模 任务 中 广泛 应 用 ， 包 括 Google 的 许多 自然 语言 处 理 任务 。 

神经 网 络 研 究 的 第 二 次 浪潮 一 直 持 续 到 上 世纪 90 年 代 中 期 。 基 于 神经 网 络 和 其 
他 AI 技术 的 创业 公司 开始 寻求 投资 ， 其 做 法 野心 勃勃 但 不 切实 际 。 当 AI 研究 不 能 实 
现 这 些 不 合理 的 期 望 时 ， 投 资 者 感到 失望 。 同 时 ， 机 器 学 习 的 其 他 领域 取得 了 进步 。 
比如 ， 核 方法 (Boser et al., 1992; Cortes and Vapnik, 1995; Schdlkopf et al., 1999) 
和 图 模型 (Jordan, 1998) 都 在 很 多 重要 任务 上 实现 了 很 好 的 效果 。 这 两 个 因素 导致 
了 神经 网 络 热潮 的 第 二 次 衰退 ， 并 一 直 持 续 到 2007 年 。 

在 此 期 间 , 神经 网 络 继续 在 某 些 任务 上 获得 令 人 印象 深刻 的 表现 (LeCun 
et al., 1998b; Bengio et al., 2001a)。 加 拿 大 高 级 研究 所 (CIFAR ) 通过 其 神经 计 
算 和 自 适应 感知 (NCAP ) 研究 计划 帮助 维持 神经 网 络 研究 。 该 计划 联合 了 分 别 
由 Geoffrey Hinton, Yoshua Bengio 和 Yann LeCun 领导 的 多 伦 多 大 学 、 蒙 特 利 尔 大 
学 和 纽约 大 学 的 机 器 学 习 人 研究 小 组 。 这 个 多 学 科 的 CIFAR NCAP 研究 计划 还 时 括 
了 神经 科学 家 、 人 类 和 计算 机 视觉 专家 。 
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在 那个 时 候 ， 人 们 普遍 认为 深度 网 络 是 难以 训练 的 。 现 在 我 们 知道 ，20 世纪 80 
年 代 就 存在 的 算法 能 工作 得 非常 好 ， 但 是 直到 在 2006 年 前 后 都 没有 体现 出 来 。 这 可 
能 仅仅 由 于 其 计算 代价 太 高 ， 而 以 当时 可 用 的 硬件 难以 进行 足够 的 实验 。 

神经 网 络 研 究 的 第 三 次 浪潮 始 于 2006 年 的 突破 。Geoffrey Hinton 表明 名 为 深 
度 信念 网 络 的 神经 网 络 可 以 使 用 一 种 称 为 贪 焚 逐 层 预 训练 的 策略 来 有 效 地 训练 
(Hinton et al., 2006a) ， 我 们 将 在 第 15.1 节 中 更 详细 地 描述 。 其 他 CIFAR 附属 研究 
小 组 很 快 表明 ， 同 样 的 策略 可 以 被 用 来 训练 许多 其 他 类 型 的 深度 网 络 (Bengio and 
LeCun, 2007a; Ranzato et al., 2007b)， 并 能 系统 地 帮助 提高 在 测试 样 例 上 的 泛 化 能 
力 。 神 经 网 络 研 究 的 这 一 次 浪潮 普及 了 “深度 学 习 ” 这 一 术语 的 使 用 ， 强 调研 究 者 
现在 有 能 力 训练 以 前 不 可 能 训练 的 比较 深 的 神经 网 络 ， 并 着 力 于 深度 的 理论 重要 
性 上 (Bengio and LeCun, 2007b; Delalleau and Bengio, 2011; Pascanu et al., 2014a; 
Montufar et ol.,，2014)。 此 时 ， 深 度 神经 网 络 已 经 优 于 与 之 竞争 的 基于 其 他 机 器 学 
习 技 术 以 及 手工 设计 功能 的 AI 系统 。 在 写 这 本 书 的 时 候 ， 神 经 网 络 的 第 三 次 发 展 浪 
潮 仍 在 继续 ， 尽 管 深度 学 习 的 研究 重点 在 这 一 段 时 间 内 发 生 了 巨大 变化 。 第 三 次 浪 
潮 已 开始 着 眼 于 新 的 无 监督 学 习 技 术 和 次 度 模型 在 小 数据 集 的 谤 化 能 力 ， 但 目前 更 
多 的 兴趣 点 仍 是 比较 传统 的 监督 学 习 算 法 和 深度 模型 充分 利用 大 型 标注 数据 集 的 能 
力 。 














1.2.2 与日俱增 的 数据 量 


人 们 可 能 想 问 ， 既 然 人 工 神经 网 络 的 第 一 个 实验 在 20 世纪 50 年 代 就 完成 了 ， 
但 为 什么 深度 学 习 直 到 最 近 才 被 认为 是 关键 技术 。 自 20 世纪 90 FRAIR, REF 
习 就 已 经 成 功用 于 商业 应 用 ,但 通常 被 视 为 是 一 种 只 有 专家 才 可 以 使 用 的 艺术 而 不 
是 一 种 技术 ， 这 种 观点 一 直 持 续 到 最 近 。 确 实 ， 要 从 一 个 深度 学 习 算 法 获得 良好 的 
性 能 需要 一 些 技巧 。 幸 运 的 是 ， 随 着 训练 数据 的 增加 ， 所 需 的 技巧 正在 减少 。 目 前 
在 复杂 的 任务 达到 人 类 水 平 的 学 习 算 法 ,与 20 世纪 80 年 代 努 力 解决 玩具 问题 (toy 
problem) 的 学 习 算 法 几乎 是 一 样 的 ， 尽 管 我 们 使 用 这 些 算 法 训练 的 模型 经 历 了 变革 ， 
即 简化 了 极 深 架构 的 训练 。 最 重要 的 新 进展 是 现在 我 们 有 了 这 些 算法 得 以 成 功 训 练 
所 需 的 资源 。 图 1.8 展示 了 基准 数据 集 的 大 小 如 何 随 着 时 间 的 推移 而 显著 增加 。 这 
种 趋势 是 由 社会 日 益 数字 化 驱动 的 。 由 于 我 们 的 活动 越 来 越 多 发 生 在 计算 机 上 ， 我 
们 做 什么 也 越 来 越 多 地 被 记录 。 由 于 我 们 的 计算 机 越 来 越 多 地 联网 在 一 起 ， 这 些 记 
录 变 得 更 容易 集中 管理 ， 并 更 容易 将 它们 整理 成 适 于 机 器 学 习 应 用 的 数据 集 。 因 为 
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统计 估计 的 主要 负担 ( 观察 少量 数据 以 在 新 数据 上 泛 化 ) 已 经 减轻 ,“ 大 数据 ”时 代 
使 机 器 学 习 更 加 容易 。 截 至 2016 年 ， 一 个 粗略 的 经 验 法 则 是 ， 监 督 深度 学 习 算法 在 
每 类 给 定 约 5000 个 标注 样本 情况 下 一 般 将 达到 可 以 接受 的 性 能 ， 当 至 少 有 1000 万 
个 标注 样本 的 数据 集 用 于 训练 时 ， 它 将 达到 或 超过 人 类 表现 。 此 外 ， 在 更 小 的 数据 
集 上 获得 成 功 是 一 个 重要 的 研究 领域 ， 为 此 我 们 应 特别 侧重 于 如 何 通过 无 监督 或 半 
监督 学 习 充 分 利用 大 量 的 未 标注 样本 。 


Dataset size (number examples) 





1900 1950 1985 2000 2015 


1.8: 与 日 俱 增 的 数据 量 。20 世纪 初 ， 统 计 学 家 使 用 数 百 或 数 千 的 手动 制作 的 度量 来 研究 数据 集 
(Garson, 1900; Gosset, 1908; Anderson, 1935; Fisher, 1936). 20 世纪 50 年 代 到 80 年 代 , 受 生 物 
启发 的 机 器 学 习 开 拓 者 通常 使 用 小 的 合成 数据 集 ， 如 低 分 辩 率 的 字母 位 图 , 设计 为 在 低 计算 成 本 下 
表明 神经 网 络 能 够 学 习 特 定 功能 (Widrow and Hoff, 1960; Rumelhart et al., 1986b)。20 世纪 80 
年 代 和 90 年 代 ， 机 需 学 习 变 得 更 加 统计 ， 并 开始 利用 包含 成 千 上 万 个 样本 的 更 大 数据 集 ， 如 手写 
扫描 数字 的 MNIST 数据 集 ( 如 图 1.9 ) 所 示 (LeCun et al., 1998b)。 在 21 世纪 初 的 第 一 个 十 年 ， 
相同 大 小 更 复杂 的 数据 集 持 续 出 现 ， 如 CIFAR-10 数据 集 (Krizhevsky and Hinton, 2009) 。 在 这 
十 年 结束 和 下 五 年 ， 明 显 更 大 的 数据 集 (包含 数 万 到 数 千 万 的 样 例 ) 完全 改变 了 深度 学 习 的 可 能 
实现 的 事 。 这 些 数据 集 包 括 公 共 Street View House Numbers 数据 集 (Netzer et al., 2011)、 各 种 
版 本 的 ImageNet 数据 集 (Deng et al., 2009, 2010a; Russakovsky et al., 2014a) 以 及 Sports-1M 
数据 集 (Karpathy et al., 2014)。 在 图 项 部 ， 我 们 看 到 翻译 句子 的 数据 集 通 常 远大 于 其 他 数据 集 ， 
如 根据 Canadian Hansard 制作 的 IBM 数据 集 (Brown et al., 1990) Al WMT 2014 英法 数据 集 
(Schwenk, 2014) 。 
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图 1.9: MNIST 数据 集 的 输入 样 例 。“NIST” 代表 国家 标准 和 技术 研究 所 (National Institute of 
Standards and Technology), 是 最 初 收集 这 些 数据 的 机 构 。“M” 代表“ 修改 的 (Modified)”, 为 更 
容易 地 与 机 器 学 习 算 法 一 起 使 用 ， 数 据 已 经 过 预 处 理 。MNIST 数据 集 包括 手写 数字 的 扫描 和 相关 
标签 ( 描述 每 个 图 像 中 包含 0-9 中 哪个 数字 )。 这 个 简单 的 分 类 问题 是 深度 学 习 研 究 中 最 简单 和 最 
广泛 使 用 的 测试 之 一 。 尽 管 现代 技术 很 容易 解决 这 个 问题 ， 它 仍然 很 受 欢 迎 。Geoffrey Hinton 将 
其 描述 为 “机 器 学 习 的 果 蝇 *"， 这 意味 着 机 器 学 习 研 究 人 员 可 以 在 受 控 的 实验 室 条 件 下 研究 他 们 的 
算法 ， 就 像 生物 学 家 经 常 研究 果 蝇 一 样 。 












































1.2.3 与日俱增 的 模型 规模 


20 世纪 80 年 代 ， 神 经 网 络 只 能 取得 相对 较 小 的 成 功 ， 而 现在 神经 网 络 非常 成 
功 的 男 一 个 重要 原因 是 我 们 现在 拥有 的 计算 资源 可 以 运行 更 大 的 模型 。 联 结 主义 的 
主要 见解 之 一 是 ， 当 动物 的 许多 神经 元 一 起 工作 时 会 变 得 聪明 。 单 独 神经 元 或 小 集 
合 的 神经 元 不 是 特别 有 用 。 
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生物 神经 元 不 是 特别 稠密 地 连接 在 一 起 。 如 图 1.10 所 示 ， 几 十 年 来 ， 我 们 的 机 
顺 学 习 模 型 中 每 个 神经 元 的 连接 数量 已 经 与 哺乳 动物 的 大 脑 在 同一 数量 级 上 。 
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图 1.10: 与 日 俱 增 的 每 神经 元 连接 数 。 最 初 ， 人 工 神经 网 络 中 神经 元 之 间 的 连接 数 受 限于 硬件 能 
力 。 而 现在 ， 神 经 元 之 间 的 连接 数 大 多 是 出 于 设计 考虑 。 一 些 人 工 神经 网 络 中 每 个 神经 元 的 连接 
数 与 猫 一 样 多 ， 并 且 对 于 其 他 神经 网 络 来 说 ， 每 个 神经 元 的 连接 与 较 小 哺乳 动物 (如 小 鼠 ) 一 
样 多 是 非常 普遍 的 。 甚 至 人 类 大 脑 每 个 神经 元 的 连接 也 没有 过 高 的 数量 。 生 物 神经 网 络 规模 来 
自 Wikipedia (2015)。 





























自 适应 线性 单元 (Widrow and Hoff, 1960) 
神经 认 知 机 (Fukushima, 1980) 
GPU- 加 速 卷 积 网 络 (Chellapilla et al., 2006) 


深度 玻 尔 效 曼 机 (Salakhutdinov and Hinton, 2009a) 


GPU- 加 速 多 层 感知 机 (Ciresan et al., 2010) 
分 布 式 自 编码 器 (Le et al., 2012) 


1. 

2. 

3. 

4. 

5. 无 监督 卷 积 网 络 (Jarrett et al., 2009b) 
6. 

TA 

8. Multi-GPU 卷 积 网 络 (Krizhevsky et al., 2012a) 
oF 


COTS HPC 无 监督 卷 积 网 络 (Coates et al., 2013) 


10. GoogLeNet (Szegedy et al., 2014a) 


如 图 1.11 所 示 ， 就 神经 元 的 总 数目 而 言 ， 直 到 最 近 神经 网 络 都 是 惊人 的 小 。 上 自 
从 隐藏 单元 引入 以 来 ， 人工 神经 网 络 的 规模 大 约 每 2.4 年 扩大 一 倍 。 这 种 增长 是 由 
更 大 内 存 、 更 快 的 计算 机 和 更 大 的 可 用 数据 集 驱 动 的 。 更 大 的 网 络 能 够 在 更 复杂 的 
任务 中 实现 更 高 的 精度 。 这 种 趋势 看 起 来 将 持续 数 十 年 。 除 非 有 能 力 迅速 扩展 的 新 
技术 ， 否 则 至 少 要 到 21 世纪 50 年 代 ， 人 工 神经 网 络 将 才能 具备 与 人 脑 相 同 数量 级 
的 神经 元 。 生 物 神经 元 表示 的 功能 可 能 比 目 前 的 人 工 神经 元 所 表示 的 更 复杂 ， 因 此 
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生物 神经 网 络 可 能 比 图 中 描绘 的 甚至 要 更 大 。 


Number of neurons (logarithmic scale) 





1950 1985 2000 2015 2056 


1.11: 与 日 俱 增 的 神经 网 络 规模 。 自 从 引入 隐藏 单元 ， 人 工 神 经 网 络 的 大 小 大 约 每 2.4 年 翻 一 
音 。 生 物 神经 网 络 规模 来 自 Wikipedia (2015). 


1. 感知 机 (Rosenblatt, 1958, 1962) 

2. 自 适应 线性 单元 (Widrow and Hoff, 1960) 
3.， 神经 认 知 机 (Fukushima, 1980) 

4. 早期 后 向 传播 网 络 (Rumelhart et al., 1986b) 


5. 于 语音 识别 的 循环 神经 网 络 (Robinson and Fallside, 1991) 























6. 用 于 语音 识别 的 多 层 感知 机 (Bengio et al., 1991) 
7. 均匀 场 sigmoid 信 和 念 网 络 (Saul et al., 1996) 


8. LeNet-5 (LeCun et al., 1998b) 











9. 回声 状态 网 络 (Jaeger and Haas, 2004) 











10. 深度 信念 网 络 (Hinton et al., 2006a) 

11. GPU- 加 速 卷 积 网 络 (Chellapilla et al., 2006) 

12. 深度 玻 尔 兹 曼 机 (Salakhutdinov and Hinton, 2009a) 
13. GPU- 加 速 深度 信念 网 络 (Raina et al., 2009a) 

14. 无 监督 卷 积 网 络 (Jarrett et al., 2009b) 

15. GPU- 加 速 多 层 感知 机 (Ciresan et al., 2010) 





16. OMP-1 网 络 (Coates and Ng, 2011) 

17. 分 布 式 自 编码 器 (Le et al., 2012) 

18. Multi-GPU 卷 积 网 络 (Krizhevsky et al., 2012a) 
19. COTS HPC 无 监督 卷 积 网 络 (Coates et al., 2013) 


20. GoogLeNet (Szegedy et al., 2014a) 


HEAR, AB ZETEC > SHS A A REMER RAIA TE ee 
是 不 足 为 奇 的 。 即 使 现在 的 网 络 ， 从 计算 系统 角度 来 看 它 可 能 相当 大 的 ， 但 实际 上 
它 比 相对 原始 的 浓 椎 动物 如 青蛙 的 神经 系统 还 要 小 。 
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由 于 更 快 的 CPU、 通 用 GPU 的 出 现 (在 第 12.1.2 节 中 讨论 )、 更 快 的 网 络 连 接 
和 更 好 的 分 布 式 计算 的 软件 基础 设施 ， 模 型 规模 随 着 时 间 的 推移 不 断 增 加 是 深度 学 
习 历 史 中 最 重要 的 趋势 之 一 。 人 们 普遍 预计 这 种 趋势 将 很 好 地 持续 到 未 来 。 





1.2.4 与 日 俱 增 的 精度 、 复 杂 度 和 对 现实 世界 的 冲击 


20 世纪 80 年 代 以 来 ， 深 度 学 习 提供 精确 识别 和 预测 的 能 力 一 直 在 提高 。 而 且 ， 
深度 学 习 持 续 成 功 地 被 应 用 于 越 来 越 广泛 的 实际 问题 中 。 

最 早 的 深度 模型 被 用 来 识别 裁剪 紧凑 且 非 常 小 的 图 像 中 的 单个 对 象 (Rumelhart 
et al., 1986d)。 此 后 ， 神 经 网 络 可 以 处 理 的 图 像 尺 寸 逐渐 增加 。 现 代 对 象 识别 网 络 能 
处 理 丰 富 的 高 分 辩 率 照片 ， 并 且 不 需要 在 被 识别 的 对 象 附近 进行 裁剪 (Krizhevsky 
et al., 2012b)。 类 似 地 ， 最 早 的 网 络 只 能 识别 两 种 对 象 (或 在 某 些 情况 下 ， 单 类 对 象 
的 存在 与 否 )， 而 这 些 现代 网 络 通 常 能 够 识别 至 少 1000 个 不 同类 别 的 对 象 。 对 象 识 别 
中 最 大 的 比赛 是 每 年 举行 的 InageNet 大 型 视觉 识别 挑战 (ILSVRC )。 深 度 学 习 迅 
速 崛 起 的 激动 人 心 的 一 幕 是 卷 积 网 络 第 一 次 大 幅 赢得 这 一 挑战 ， 它 将 最 高 水 准 的 前 
5 错误 率 从 26.1% 降 到 15.3% (Krizhevsky et al., 2012b)， 这 意味 着 该 卷 积 网 络 针对 
每 个 图 像 的 可 能 类 别 生成 一 个 顺序 列表 ， 除 了 15.3% 的 测试 样本 ， 其 他 测试 样本 的 
正确 类 标 都 出 现在 此 列表 中 的 前 5 项 里 。 此 后 ， 深 度 卷 积 网 络 连续 地 赢得 这 些 比 赛 ， 
截至 写本 书 时 ,深度 学 习 的 最 新 结果 将 这 个 比赛 中 的 前 5 错误 率 降 到 了 3.6%， 如 
图 1.12 所 示 。 

深度 学 习 也 对 语音 识别 产生 了 巨大 影响 。 语 音 识别 在 20 世纪 90 年 代 得 到 提 
高 后 ， 直 到 约 2000 年 都 停滞 不 前 。 深 度 学 习 的 引入 (Dahl et al., 2010; Deng et al., 
2010b; Seide et al., 2011; Hinton et al., 2012a) 使 得 语音 识别 错误 率 陡然 下 降 ， 有 些 
错误 率 甚 至 降低 了 一 半 。 我 们 将 在 第 12.3 节 更 详细 地 探讨 这 个 历史 。 

深度 网 络 在 行人 检测 和 图 像 分 割 中 也 取得 了 引 人 注 目的 成 功 (Sermanet et al., 
2013; Farabet et al., 2013; Couprie et al., 2013)， 并 且 在 交通 标志 分 类 上 取得 了 超越 
人 类 的 表现 (Ciresan et al., 2012). 

在 深度 网 络 的 规模 和 精度 有 所 提高 的 同时 ， 它 们 可 以 解决 的 任务 也 日 益 复 杂 。 
Goodfellow et al. (2014d) 表明 ， 神 经 网 络 可 以 学 习 输 出 描述 图 像 的 整个 字符 序列 ， 
而 不 是 仅仅 识别 单个 对 象 。 此 前 ， 人 们 普遍 认为 ， 这 种 学 习 需 要 对 序列 中 的 单个 元 
素 进行 标注 (Gulcehre and Bengio, 2013)。 循 环 神经 网 络 ， 如 之 前 提 到 的 LSTM 序 
列 模型 ， 现 在 用 于 对 序列 和 其 他 序列 之 间 的 关系 进行 建 模 ， 而 不 是 仅仅 固定 输入 之 
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图 1.12: 日 益 降 低 的 错误 率 。 由 于 深度 网 络 达到 了 在 ImageNet 大 规模 视觉 识别 挑战 中 竞争 所 必 
需 的 规模 ， 它 们 每 年 都 能 赢得 胜利 ， 并 且 产 生 越 来 越 低 的 错误 率 。 数 据 来 源 于 Russakovsky et al. 
(2014b) 和 He et al. (2015). 




















间 的 关系 。 这 种 序列 到 序列 的 学 习 似 乎 引领 着 另 一 个 应 用 的 颠覆 性 发 展 ， 即 机 器 翻 
译 (Sutskever et al., 2014; Bahdanau et al., 2015). 

这 种 复杂 性 日 益 增 加 的 趋势 已 将 其 推 向 逻辑 结论 ， 即 神经 图 灵机 (Graves et al., 
2014) 的 引入 ， 它 能 学 习 读 取 存 储 单元 和 向 存储 单元 写 入 任意 内 容 。 这 样 的 神经 网 
络 可 以 从 期 望 行为 的 样本 中 学 习 简 单 的 程序 。 例 如 ， 从 杂乱 和 排 好 序 的 样本 中 学 习 
对 一 系列 数 进行 排序 。 这 种 自我 编程 技术 正 处 于 起 步 阶段 ， 但 原则 上 未 来 可 以 适用 
于 几乎 所 有 的 任务 。 

深度 学 习 的 另 一 个 最 大 的 成 就 是 其 在 强化 学 习 (reinforcement learning ) 领域 
的 扩展 。 在 强化 学 习 中 , 一 个 自主 的 智能 体 必须 在 没有 人 类 操作 者 指导 的 情况 下 , 通 
过 试 错 来 学 习 执 行 任务 。DeepMind 表明 ， 基 于 深度 学 习 的 强化 学 习 系 统 能 够 学 会 玩 
Atari 视频 游戏 ， 并 在 多 种 任务 中 可 与 人 类 匹敌 (Mnih et al., 2015)。 深 度 学 习 也 显 
著 改 善 了 机 器 人 强化 学 习 的 性 能 (Finn et al., 2015)。 

许多 深度 学 习 应 用 都 是 高 利润 的 。 现 在 深度 学 习 被 许多 顶级 的 技术 公司 使 用 , 包 
括 Google, Microsoft, Facebook, IBM, Baidu, Apple, Adobe, Netflix, NVIDIA 
All NEC 等 。 

深度 学 习 的 进步 也 严重 依赖 于 软件 基础 架构 的 进展 。 软件 库 如 Theano (Bergstra 
et al., 2010a; Bastien et al., 2012a)、PyLearn2 (Goodfellow et al., 2013e), Torch (Col- 
lobert et al., 2011b), DistBelief (Dean et al., 2012), Caffe (Jia, 2013), MXNet (Chen 
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et al., 2015) 和 TensorFlow (Abadi et al., 2015) 都 能 支持 重要 的 研究 项 目 或 商业 产 


a 
HH o 





深度 学 习 也 为 其 他 科学 做 出 了 贡献 。 用 于 对 象 识 别 的 现代 卷 积 网 络 为 神经 科 
学 家 们 提供 了 可 以 研究 的 视觉 处 理 模型 (DiCarlo, 2013)。 深 度 学 习 也 为 处 理 海 量 
数据 以 及 在 科学 领域 作出 有 效 的 预测 提供 了 非常 有 用 的 工具 。 它 已 成 功 地 用 于 预 
测 分 子 如 何 相 互 作用 从 而 帮助 制药 公司 设计 新 的 药物 (Dahl etal., 2014)， 搜 索 亚 
原子 粒子 (Baldi et al., 2014)， 以 及 自动 解析 用 于 构建 人 脑 三 维 图 的 显微镜 图 像 
(Knowles-Barley et al., 2014) 等 。 我 们 期 待 深度 学 习 未 来 能 够 出 现在 越 来 越 多 的 科 
学 领域 中 。 

总 之 ， 深 度 学 习 是 机 器 学 习 的 一 种 方法 。 在 过 去 几 十 年 的 发 展 中 ， 它 大 量 借鉴 
了 我 们 关于 人 脑 、 统 计 学 和 应 用 数学 的 知识 。 近 年 来 ， 得 益 于 更 强大 的 计算 机 、 更 
大 的 数据 集 和 能 够 训练 更 深 网 络 的 技术 ， 深度 学 习 的 普及 性 和 实用 性 都 有 了 极 大 的 
发 展 。 未 来 几 年 充满 了 进一步 提高 深度 学 习 并 将 它 带 到 新 领域 的 挑战 和 机 遇 。 
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般 概念 开始 ， 这 能 使 我 们 定义 许多 变量 的 函数 ， 找 到 这 些 函 数 的 最 高 和 最 低 点 ， 并 
量化 信念 度 。 

接着 ， 我 们 描述 机 天 学 习 的 基本 目标 ， 并 描述 如 何 实现 这 些 目标 。 我 们 需要 指 
定 代 表 某 些 信念 的 模型 、 设 计 衡 量 这 些 信念 与 现实 对 应 程度 的 代价 函数 以 及 使 用 训 
练 算 法 最 小 化 这 个 代价 函数 。 

这 个 基本 框架 是 广泛 多 样 的 机 还 学 习 算 法 的 基础 ， 其 中 也 包括 非 深 度 的 机 带 学 
习 方法 。 在 本 书 的 后 续 部 分 ， 我 们 将 在 这 个 框架 下 开发 深度 学 习 算 法 。 
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线性 代数 作为 数学 的 一 个 分 支 ， 广泛 用 于 科学 和 工程 中 。 然 而 ， 因 为 线性 代数 
主要 是 面向 连续 数学 ， 而 非 离散 数学 ， 所 以 很 多 计算 机 科学 家 很 少 接 触 它 。 掌 握 好 
线性 代数 对 于 理解 和 从 事 机 器 学 习 算 法 相关 工作 是 很 有 必要 的 ， 尤 其 对 于 深度 学 习 
算法 而 言 。 因 此 ， 在 我 们 开始 介绍 深度 学 习 之 前 ， 我 们 集中 探讨 一 些 必 备 的 线性 代 
数 知 识 。 

如 果 你 已 经 很 熟悉 线性 代数 ， 那 么 你 可 以 轻松 地 跳 过 本 章 。 如 果 你 已 经 了 解 
这 些 概念 ， 但 是 需要 一 份 索引 表 来 回顾 一 些 重 要 公式 ， 那 么 我 们 推荐 The Matriz 
Cookbook (Petersen and Pedersen, 2006)。 如 果 你 没有 接触 过 线性 代数 ， 那 么 本 章 将 
告诉 你 本 书 所 需 的 线性 代数 知识 ， 不 过 我 们 仍然 非常 建议 你 参考 其 他 专注 于 讲解 线 
性 代数 的 文献 ， 例 如 Shilov (1977)。 最 后 ， 本 章 跳 过 了 很 多 重要 但 是 对 于 理解 深度 
学 习 非 必需 的 线性 代数 知识 。 




















2.1 标量、 向 量 、 和 矩阵 和 张 量 


学 习 线 性 代数 ， 会 涉及 以 下 几 类 数学 概念 : 








。 标 量 (scalar); 一 个 标量 就 是 一 个 单独 的 数 ， 它 不 同 于 线性 代数 中 研究 的 其 他 
大 部 分 对 象 《通常 是 多 个 数 的 数组 ) 我 们 用 斜体 表示 标量 。 标 量 通常 被 赋予 小 
写 的 变量 名 称 。 当 我 们 介绍 标量 时 ， 会 明确 它们 是 哪 种 类 型 的 数 。 比 如 ， 在 定 
义 实 数 标量 时 ,我 们 可 能 会 说 “ 令 se R 表示 一 条 线 的 斜率 ”; 在 定义 自然 数 标 
量 时 ， 我 们 可 能 会 说 “ 令 ne N 表示 元 素 的 数目 ”。 


。 向 量 (vector): 一 个 向 量 是 一 列 数 。 这 些 数 是 有 序 排列 的 。 通 过 次 序 中 的 索 
引 ， 我 们 可 以 确定 每 个 单独 的 数 。 通 常 我 们 赋予 向 量 粗 体 的 小 写 变量 名 称 ， 比 
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如 z。 癌 量 中 的 元 素 可 以 通过 带 脚 标的 斜体 表示 。 疝 量 z 的 第 一 个 元 素 是 t, 
第 二 个 元 素 是 z2， 等 等 。 我 们 也 会 注 明 存储 在 向 量 中 的 元 素 是 什么 类 型 的 。 如 
果 每 个 元 素 都 属于 R, HERMES n 个 元 素 ， 那 么 该 向 量 属于 实数 集 R 的 
n 次 笛 卡 尔 乘积 构成 的 集合 ， 记 为 及 "。 当 我 们 需要 明确 表示 向 量 中 的 元 素 时 ， 
我 们 会 将 元 素 排列 成 一 个 方 括号 包围 的 纵 列 : 


t= Al (2.1) 


我 们 可 以 把 向 量 看 作 空间 中 的 点 ， 每 个 元 素 是 不 同 坐标 轴 上 的 坐标 。 

有 时 我 们 需要 索引 向 量 中 的 一 些 元 素 。 在 这 种 情况 下 ， 我 们 定义 一 个 包含 这 些 
元 素 索 引 的 集合 ， 然 后 将 该 集合 写 在 脚 标 处 。 比 如 ， 指 定 r, z3 和 ze， 我 们 定 
MEG 5 = {1,3,6}, AAS zs。 我 们 用 符号 一 表示 集合 的 补 集中 的 索引 。 
比如 x1 表示 z PRE c 外 的 所 有 元 素 ， T-S 表示 z 中 除 2, T3, T6 外 所 有 元 
素 构 成 的 向 量 。 


HERE (matrix ): 矩阵 是 一 个 二 维 数组 ,其 中 的 每 一 个 元 素 被 两 个 索引 而 非 一 个 
所 确定 。 我 们 通常 会 赋予 矩阵 粗 体 的 大 写 变 量 名 称 ， 比 如 A. MRSS RE 
阵 高 度 为 m， 宽 度 为 n, WARMA 4 eR". 我 们 在 表示 和 矩阵 中 的 元 素 时 ， 
通常 以 不 加 粗 的 斜体 形式 使 用 其 名 称 ， 索 引用 逗号 间隔 。 比 如 ，411 表示 4 左 
ERIR, Amn 表示 A 右 下 的 元 素 。 我 们 通过 用 “:” 表示 水 平 坐标 ， 以 表示 
垂直 坐标 i 中 的 所 有 元 素 。 比 如 ，A;.: 表示 A 中 垂直 坐标 ;上 的 一 横 排 元 素 。 
这 也 被 称 为 4 的 第 i tT (row), PÆ, A. 表示 A 的 第 i 列 (column )。 
当 我 们 需要 明确 表示 矩阵 中 的 元 素 时 ， 我 们 将 它们 写 在 用 方 括号 包围 起 来 的 数 
组 中 : 

411 Aip 
421 Ao2 
有 时 我 们 需要 和 抢 阵 值 表 达 式 的 索引 ， 而 不 是 单个 元 素 。 在 这 种 情况 下 ， 我 们 在 
表达 式 后 面 接 下 标 , 但 不 必 将 矩阵 的 变量 名 称 小 写 化 。 比 如 ，f(4)i,; 表示 函数 
f 作用 在 A 上 输出 的 矩阵 的 第 i 行 第 7 列 元 素 。 


张 量 (tensor): 在 某 些 情况 下 ， 我 们 会 讨论 坐标 超过 两 维 的 数组 。 一 般 地 ， 一 
个 数组 中 的 元 素 分 布 在 奉 干 维 坐标 的 规则 网 格 中 ， 我 们 将 其 称 之 为 张 量 。 我 们 


. (2.2) 
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使 用 字体 A 来 表示 张 量 “A”。 张 量 A 中 坐标 为 (i j,k) 的 元 素 记 作 Ai xs 


HE (transpose ) 是 矩阵 的 重要 操作 之 一 。 和 矩阵 的 转 置 是 以 对 角 线 为 轴 的 镜像 ， 
这 条 从 左上 角 到 右 下 角 的 对 角 线 被 称 为 主 对 角 线 (main diagonal )。 图 2.1 显示 了 这 
个 操作 。 我 们 将 矩阵 A 的 转 置 表示 为 AT, FEMME 


(A');; = Aji (2.3) 





向 量 可 以 看 作 是 只 有 一 列 的 矩阵 。 对 应 地 ， 向 量 的 转 置 可 以 看 作 是 只 有 一 行 的 
和 矩阵。 有 时 ， 我 们 通过 将 向 量 元 素 作 为 行 矩 阵 写 在 文本 行 中 ， 然 后 使 用 转 置 操作 将 
其 变 为 标准 的 列 向 量 ， 来 定义 一 个 向 量 ， 比 如 z = [z a, 23)". 

标量 可 以 看 作 是 只 有 一 个 元 素 的 矩阵 。 因 此， 标量 的 转 置 等 于 它 本 身 ，a = a'。 








= Aia A21 A31 
Ai A2,2 A3,9 


图 2.1: 矩阵 的 转 置 可 以 看 成 是 以 主 对 角 线 为 轴 的 一 个 镜像 。 








只 要 和 矩阵 的 形状 一 样 ， 我 们 可 以 把 两 个 矩阵 相 加 。 两 个 矩阵 相 加 是 指 对 应 位 置 
的 元 素 相 加 ， 比 如 C= A+B, 其 中 Cj = Ai; + Bijo 

标量 和 和 矩阵 相 乘 ,或 是 和 和 矩阵 相 加 时 ， 我 们 只 需 将 其 与 矩阵 的 每 个 元 素 相 乘 或 
AA, Lee D=a-B+ce, 其 中 Dij =a- Bijt co 

在 深度 学 习 中 ,我们 也 使 用 一 些 不 那么 和 常规 的 符号 。 我 们 允许 矩阵 和 向 量 相 
加 ， 产 生男 一 个 矩阵 : C=A+b, HH Cig = Aig + bjo Az, leet b ME 
A 的 每 一 行 相 加 。 这 个 简写 方法 使 我 们 无 需 在 加 法 操作 前 定义 一 个 将 向 量 b 复制 
到 每 一 行 而 生成 的 和 矩阵。 这 种 隐 式 地 复制 向 量 b 到 很 多 位 置 的 方式 ， 被 称 为 广播 
( broadcasting )。 





2.2 ”矩阵 和 向 量 相 乘 


抢 阵 乘法 是 矩阵 运算 中 最 重要 的 操作 之 一 。 两 个 矩阵 4 和 B H HERIR 
(matrix product ) 是 第 三 个 矩阵 C。 为 了 使 乘法 定义 良好 , 和 矩阵 A 的 列 数 必 须 和 和 拢 
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阵 B 的 行 数 相等 。 如 果 和 矩阵 A 的 形状 是 m x n, EE B 的 形状 是 nxp, 那么 矩阵 
C 的 形状 是 mx po 我 们 可 以 通过 将 两 个 或 多 个 矩阵 并 列 放 置 以 书写 矩阵 乘法 ,例如 


C= AB. (2.4) 
具体 地 ， 该 乘法 操作 定义 为 


0i,; = b Aik Br j- (2.5) 
k 


需要 注意 的 是 ， 两 个 和 矩阵 的 标准 乘积 不 是 指 两 个 矩阵 中 对 应 元 素 的 乘积 。 不 过 ， 
那样 的 矩阵 操作 确实 是 存在 的 ， 被 称 为 元 素 对 应 乘积 (element-wise product) 或 
者 Hadamard 乘积 (Hadamard product ), WX A © B, 
两 个 相同 维 数 的 向 量 xz 和 yy 的 点 积 (dot product ) 可 看 作 是 矩阵 乘积 z' wy。 我 
们 可 以 把 矩阵 乘积 C= AB 中 计算 Ci; 的 步骤 看 作 是 A 的 第 i 行 和 B 的 第 j 列 之 
间 的 点 积 。 
和 矩阵 乘积 运算 有 许多 有 用 的 性 质 ， 从 而 使 矩阵 的 数学 分 析 更 加 方便 。 比 如 ， 算 
阵 乘积 服从 分 配 律 . 
A(B+ C)=AB+AC. (2.6) 
FEE AG RR A 25 AE : 
A(BC) = (AB)C. (2.7) 
不 同 于 标量 乘积 , FEE ER FRE CHR (AB = BA 的 情况 并 非 总 是 满足 )。 
然而 ， 两 个 向 量 的 点 积 ( dot product ) 满足 交换 律 : 


ZT'Yy=Y z. (2.8) 
和 矩阵 乘积 的 转 置 有 着 简单 的 形式 : 


(AB)'=B'A'. (2.9) 











利用 向 量 乘积 是 标量 ， 标 量 转 置 是 自身 的 事实 ， 我 们 可 以 证 明 式 (2.8) : 


gl y= (£y) =y' z. (2.10) 


由 于 本 书 的 重点 不 是 线性 代数 ， 我 们 并 不 试图 展示 和 矩阵 乘积 的 所 有 重要 性 质 ， 
但 读者 应 该 知道 矩阵 乘积 还 有 很 多 有 用 的 性 质 。 
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现在 我 们 已 经 知道 了 足够 多 的 线性 代数 符号 ， 可 以 表达 下 列 线性 方程 组 : 


Ar=b (2.11) 





其 中 A cR” EDEA, DER” 是 一 个 已 知 向 量 ，z e R” 是 一 个 我 们 要 
求解 的 未 知 向 量 。 向 量 z 的 每 一 个 元 素 z 都 是 未 知 的。 矩阵 4 的 每 一 行 和 b 中 对 
应 的 元 素 构成 一 个 约束 。 我 们 可 以 把 式 (2.11) 重 写 为 








A, :7 一 bi (2.12) 
A2:£ = bə (2.13) 
(2.14) 
AmE = bm (2.15) 
或 者 ， 更 明确 地 ， 写 作 
Ajit, T 41272 Ei Aj nTn =b (2.16) 
A2121 EE A222 a se ACNE, = bə (2.17) 
(2.18) 
4m1271 十 Ayn 272 tee Amn&n = bm: (2.19) 


和 矩阵 向 量 乘积 符号 为 这 种 形式 的 方程 提供 了 更 紧凑 的 表示 。 


2.3 BA fic FE BE AO FB E 


线性 代数 提供 了 被 称 为 矩阵 逆 (matrix inversion) WERTH., SFRERUE 
阵 4， 我 们 都 能 通过 和 矩阵 逆 解 析 地 求解 式 (2.11) 。 

为 了 描述 矩阵 逆 ， 我们 首先 需要 定义 单位 矩阵 (identity matrix) 的 概念 。 任 意 
向 量 和 单位 矩阵 相 乘 ， 都 不 会 改变 。 我 们 将 保持 n 维 向 量 不 变 的 单位 矩阵 记 作 芽 ,。 
ÉRE, n eR”, 








Vee R”, I£ = z. (2.20) 


单位 矩阵 的 结构 很 简单 : 所 有 沿 主 对 角 线 的 元 素 都 是 1， 而 所 有 其 他 位 置 的 元 素 都 是 
0。 如 图 2.2 所 示 的 例子 。 
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1 0 0 
0 1 0 
0 0 1 


图 2.2: 单位 矩阵 的 一 个 样 例 : 这 是 五 。 





AERE A 的 矩阵 逆 (matrix inversion) 记 作 4 一 ， 其 定义 的 矩阵 满足 如 下 条 件 


A‘A=f,. (2.21) 


现在 我 们 可 以 通过 以 下 步 又 求解 式 (2.11) : 


Az=b (2.22) 
AT! Az= A™tb (2.23) 
I,a—= A 1b (2.24) 
z= Ab. (2.25) 


当然 ， 这 取决 于 我 们 能 否 找到 一 个 逆 矩 阵 4 一 。 在 接 下 来 的 章节 中 ， 我 们 会 讨 
WEE A 存在 的 条 件 。 

当 逆 矩阵 A 存在 时 ， 有 几 种 不 同 的 算法 都 能 找到 它 的 闭 解 形 式 。 理 论 上 ， 相 
同 的 逆 矩 阵 可 用 于 多 次 求解 不 同 向 量 b 的 方程 。 然 而 ， 逆 和 矩阵 A 主要 是 作为 理论 
工具 使 用 的 ， 并 不 会 在 大 多 数 软件 应 用 程序 中 实际 使 用 。 这 是 因为 道 矩 阵 4 … 在 数 
字 计 算 机 上 只 能 表现 出 有 限 的 精度 ， 有 效 使 用 向 量 b 的 算法 通常 可 以 得 到 更 精确 的 


Lo 
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如 果 逆 矩阵 A 存在 ， 那 么 式 (2.11) 肯定 对 于 每 一 个 向 量 b 恰好 存在 一 个 解 。 
但 是 ， 对 于 方程 组 而 言 ， 对 于 向 量 b 的 某 些 值 ， 有 可 能 不 存在 解 ， 或 者 存在 无 限 多 
个 解 。 存 在 多 于 一 个 解 但 是 少 于 无 限 多 个 解 的 情况 是 不 可 能 发 生 的 ; 因为 如 果 z 和 
y 都 是 某 方 程 组 的 解 ， 则 

z=an+(l-—a)y (2.26) 
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(其 中 a 取 任 意 实数 ) 也 是 该 方程 组 的 解 。 
为 了 分 析 方 程 有 多 少 个 解 ， 我 们 可 以 将 A 的 列 向 量 看 作 是 从 原点 (origin ) (元 
素 都 是 零 的 向 量 ) 出 发 的 不 同方 向 , 确定 有 和 多少 种 方法 可 以 到 达 疝 量 b。 在 这 个 观点 
下 ， 向 量 x 中 的 每 个 元 素 表示 我 们 应 该 沿 着 这 些 方向 走 多 远 ， 即 zx; 表示 我 们 需要 沿 
着 第 i 个 向 量 的 方向 走 多 远 : 
Az= 》_ tiA; (2.27) 


一 般 而 言 ， 这 种 操作 被 称 为 线性 组 合 (linear combination )。 形式 上 , 一 组 向 量 的 线 
性 组 合 ， 是 指 每 个 向 量 乘 以 对 应 标量 系数 之 后 的 和 ， 即 : 


So av. (2.28) 

















一 组 向 量 的 生成 子 空间 (span ) 是 原始 向 量 线性 组 合 后 所 能 抵达 的 点 的 集合 。 

确定 4z = b 是 否 有 解 相 当 于 确定 向 量 b 是 否 在 A 列 向 量 的 生成 子 空间 中 。 这 
个 特殊 的 生成 子 空间 被 称 为 4 的 列 空间 (column space ) 或 者 A 的 值 域 (range )。 

为 了 使 方程 4z = b 对 于 任意 向 量 be R” 都 存在 解 ， 我 们 要 求 4 的 列 空间 构 
成 整个 R” WR R” 中 的 某 个 点 不 在 A 的 列 空间 中 ， 那 么 该 点 对 应 的 b 会 使 得 
该 方程 没有 解 。 和 矩阵 4 的 列 空间 是 整个 R” 的 要 求 ， 意 味 着 A BDA m 列 ， 即 
n>m. AM, A 列 空间 的 维 数 会 小 于 m。 例 如 ,假设 A 是 一 个 3 x 2 AYER. H 
ER b te 3 FEN, 但 是 z 只 有 2 维 。 所 以 无 论 如 何 修 改 z 的 值 ， 也 只 能 描绘 出 R3 空 
间 中 的 二 维 平面 。 当 且 仅 当 向 量 "在 该 二 维 平面 中 时 ， 该 方程 有 解 。 

不 等 式 n > m 仅 是 方程 对 每 一 点 都 有 解 的 必要 条 件 。 这 不 是 一 个 充分 条 件 ， 
为 有 些 列 向 量 可 能 是 宛 余 的 。 假设 有 一 个 R? 中 的 矩阵 ， 它 的 两 个 列 向 量 是 相同 
的 。 那 么 它 的 列 空间 和 它 的 一 个 列 向 量 作为 矩阵 的 列 空间 是 一 样 的。 换言之 ,虽然 
该 矩阵 有 2 列 ， 但 是 它 的 列 空间 仍然 只 是 一 条 线 ， 不 能 涵盖 整个 R 空间 。 

正式 地 说 ， 这 种 元 余 被 称 为 线性 相关 (linear dependence )。 如 果 一 组 向 量 中 的 
任意 一 个 向 量 都 不 能 表示 成 其 他 向 量 的 线性 组 合 ， 那 么 这 组 向 量 被 称 为 线性 无 关 
(linearly independent )。 如 果 某 个 向 量 是 一 组 向 量 中 某 些 向 量 的 线性 组 合 ， 那 么 我 
们 将 这 个 向 量 加 入 到 这 组 向 量 后 不 会 增加 这 组 向 量 的 生成 子 空间 。 这 意味 着 ， 如 果 
一 个 矩阵 的 列 空 间 涵 盖 整 个 有 了， 那么 该 矩阵 必须 包含 至 少 一 组 m 个 线性 无 关 的 向 
量 。 这 是 式 (2.11) 对 于 每 一 个 向 量 b 的 取 值 都 有 解 的 充分 必要 条 件 。 值 得 注意 的 是 ， 
这 个 条 件 是 说 该 回 量 集 恰 好 有 mm 个 线性 无 关 的 列 向 量 ， 而 不 是 至 少 m 个 。 不 存在 
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一 个 m 维 向 量 的 集合 具有 多 于 m 个 彼此 线性 不 相关 的 列 向 量 ， 但 是 一 个 有 多 于 m 
个 列 向 量 的 矩阵 却 有 可 能 拥有 不 止 一 个 大 小 为 m 的 线性 无 关 向 量 集 。 
要 想 使 矩阵 可 逆 ， 我们 还 需要 保证 式 (2.11) 对 于 每 一 个 b 值 至 多 有 一 个 解 。 为 
此 ， 我 们 需要 确保 该 矩阵 至 多 有 m 个 列 向 量 。 否 则 ， 该 方程 会 有 不 止 一 个 解 。 
综 上 所 述 ， 这 意味 着 该 矩阵 必须 是 一 个 方 阵 〈square )， 即 m = nm， 并且 所 有 列 
向 量 都 是 线性 无 关 的 。 一 个 列 向 量 线性 相关 的 方 阵 被 称 为 奇异 的 (singular )。 
如 果 和 矩阵 4 不 是 一 个 方 阵 或 者 是 一 个 奇异 的 方 阵 ， 该 方程 仍然 可 能 有 解 。 但 是 
我 们 不 能 使 用 矩阵 逆 去 求解 。 
目前 为 止 ， 我 们 已 经 讨论 了 逆 和 矩阵 左 乘 。 我 们 也 可 以 定义 闭 矩 阵 右 乘 : 





AA” =a. (2.29) 


对 于 方 阵 而 言 ， 它 的 左 逆 和 右 逆 是 相等 的 。 


有 时 我 们 需要 衡量 一 个 向 量 的 大 小 。 在 机 顺 学 习 中 ， 我 们 经 常 使 用 被 称 为 范 数 
(norm ) 的 函数 衡量 向 量 大 小 。 形 式 上 ，L? 范 数 定义 如 下 


læl, = (= ar) (2.30) 





其 中 peR, p>1。 
范 数 (包括 L? 范 数 ) 是 将 向 量 映射 到 非 负 值 的 函数 。 直 观 上 来 说 ， 向 量 z 的 
范 数 衡量 从 原点 到 点 z 的 距离 。 更 严格 地 说 ， 范 数 是 满足 下 列 性 质 的 任意 函数 ， 


e jz)=0 僵 2Z=0 
o f(a+y)<f(a)+fly) ( EATER (triangle inequality ) ) 
e Va E R, f(az) = |a| f(x) 


当 p=2 Hf, L? 范 数 被 称 为 欧 几 里 得 范 数 (Euclidean norm )。 它 表示 从 原点 
出 发 到 向 量 x 确定 的 点 的 欧 几 里 得 距离 。 三 ” 范 数 在 机 器 学 习 中 出 现 地 十 分 频繁 ， 经 
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常 简化 表示 为 |z||， 略 去 了 下 标 2. 平方 到 范 数 也 经 常用 来 衡量 向 量 的 大 小 ， 可 以 
简单 地 通过 点 积 zz 计算 。 

平方 L 范 数 在 数学 和 计算 上 都 比 L 范 数 本 身 更 方便 。 例 如 ， 平方 L 范 数 对 
ae 中 每 个 元 素 的 导数 只 取决 于 对 应 的 元 素 ， 而 L 范 数 对 每 个 元 素 的 导数 却 和 整个 向 
量 相 关 。 但 是 在 很 多 情况 下 ,平方 L 范 数 也 可 能 不 受 欢迎 ， 因 为 它 在 原点 附近 增长 
得 十 分 缓慢 。 在 某 些 机 器 学 习 应 用 中 ， 区 分 恰好 是 零 的 元 素 和 非 零 但 值 很 小 的 元 素 
是 很 重要 的 。 在 这 些 情 况 下 ， 我 们 转 而 使 用 在 各 个 位 置 斜 率 相同 ， 同 时 保持 简单 的 
数学 形式 的 函数 : Lt wR. Lt 范 数 可 以 简化 如 下 : 





læl = D [zil. (2.31) 


当 机 融 学 习 问 题 中 零 和 非 零 元 素 之 间 的 差异 非常 重要 时 ， 通 常会 使 用 L 范 数 。 每 当 
Zz 中 某 个 元 素 从 0 增加 e， 对 应 的 LI 范 数 也 会 增加 eo 

有 时 候 我 们 会 统计 向 量 中 非 零 元 素 的 个 数 来 衡量 向 量 的 大 小 。 有 些 作 者 将 这 种 
RARA “LO 范 数 ”， 但 是 这 个 术语 在 数学 意义 上 是 不 对 的 。 回 量 的 非 零 元 素 的 数目 
不 是 范 数 ， 因 为 对 向 量 缩放 a 倍 不 会 改变 该 向 量 非 零 元 素 的 数目 。 因 此 ，L! 范 数 经 
常 作为 表示 非 零 元 素数 目的 替代 函数 。 

另外 一 个 经 常 在 机 器 学 习 中 出 现 的 范 数 是 LO 范 数 ， 也 被 称 为 RATER (max 
norm )。 这 个 范 数 表示 疝 量 中 具有 最 大 幅 值 的 元 素 的 绝对 值 : 


[zl = max |x]. (2.32) 








有 时 候 我 们 可 能 也 希望 衡量 矩阵 的 大 小 。 在 深度 学 习 中 ， 最 常见 的 做 法 是 使 


FA Frobenius 范 数 ( Frobenius norm ), 
Alle =, />_ 42), (2.33) 
ij 
其 类 似 于 向 量 的 L? 范 数 。 


两 个 向 量 的 点 积 (dot product ) 可 以 用 范 数 来 表示 。 具 体 地 ， 
z' y = |zl, lyla cos 0 (2.34) 
其 中 0 表示 zx All y 之 间 的 夹 角 。 
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2.6 ”特殊 类 型 的 矩阵 和 向 量 


有 些 特 殊 类 型 的 矩阵 和 向 量 是 特别 有 用 的 。 

Xt FASEB (diagonal matrix) 只 在 主 对 角 线 上 含有 非 零 元 素 ， 其 他 位 置 都 是 零 。 
Jest, EE D EXER, MAMTA i AG, Di; = 0。 我 们 已 经 看 到 
过 一 个 对 角 和 矩阵 : 单位 矩阵 ， 对 角 元 素 全 部 是 1。 我 们 用 diag(v) 表示 一 个 对 角 元 素 
由 向 量 v 中 元 素 给 定 的 对 角 方 阵 。 对 角 和 矩阵 受到 关注 的 部 分 原因 是 对 角 和 矩阵 的 乘法 
计算 很 高 效 。 计 算 乘法 diag(v)zx， 我 们 只 需要 将 z 中 的 每 个 元 素 x; 放大 vw; o M 
言 之 ，diag(v)z = vO z。 计 算 对 角 方 阵 的 闭 矩 阵 也 很 高 效 。 对 角 方 阵 的 逆 抢 阵 存 在 ， 
当 且 仅 当 对 角 元 素 都 是 非 零 值 ,在 这 种 情况 下 ,，diag()-1 = diag([1/vi,...,1/v,]')。 
在 很 多 情况 下 ， 我 们 可 以 根据 任意 矩阵 导出 一 些 通用 的 机 器 学 习 算法 ; 但 通过 将 一 
些 和 矩阵 限制 为 对 角 和 矩阵 ， 我 们 可 以 得 到 计算 代价 较 低 的 (并 且 简 明 扼 要 的 ) 算法 。 

不 是 所 有 的 对 角 和 矩阵 都 是 方 阵 。 长 方形 的 和 矩阵 也 有 可 能 是 对 角 和 矩阵 。 非 方 阵 的 
对 和 角 和 抢 阵 没有 逆 和 矩阵 ， 但 我 们 仍然 可 以 高 效 地 计算 它们 的 乘法 。 对 于 一 个 长 方形 对 
HEE DD MA, AE Dz 会 涉及 到 x 中 每 个 元 素 的 缩放 ， 如 果 D 是 瘦长 型 矩阵 ， 
那么 在 缩放 后 的 末尾 添加 一 些 零 ; 如 果 D 是 胖 宽 型 矩阵 ， 那 么 在 缩放 后 去 掉 最 后 一 
些 元 素 。 


对 称 (symmetric ) 矩阵 是 转 置 和 自己 相等 的 矩阵 : 











A=A'. (2.35) 


ELE AS RIES BOE HY BEB PRE MCR AT, OTRAS SS Ahn, 4 
PAPA XT PRAY o 


单位 向 量 (unit vector) 是 具有 单位 范 数 (unit norm ) 的 向 量 : 


lal。 = 1. (2.36) 


如 果 2 y=0, 那么 向 量 x 和 向 量 y 互相 正 交 (orthogonal )。 如 果 两 个 向 量 都 
有 非 零 范 数 ， 那 么 这 两 个 向 量 之 间 的 夹 角 是 90 度 。 在 R* 中， 至 多 有 n 个 范 数 非 
零 问 量 互相 正 交 。 如 果 这 些 向 量 不 仅 互 相 正 交 ， 并 且 范 数 都 为 1， 那 么 我 们 称 它 们 


是 标准 正 交 (orthonormal )。 
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TE 38 46 B& (orthogonal matrix ) 是 指 行 向 量 和 列 向 量 是 分 别 标准 正 交 的 方 阵 : 
A'A=AA' =I. (2.37) 
A'=A', (2.38) 
JT LA TEAC HR MESS BITE EA AR BT RAO). Beal ig ETE ETE CFE EE MR 
直觉 地 ， 正 交 抢 阵 的 行 向 量 不 仅 是 正 交 的 ， 还 是 标准 正 交 的 。 对 于 行 向 量 或 列 向 量 
互相 正 交 但 不 是 标准 正 交 的 矩阵 没有 对 应 的 专 有 术语 。 


2.7 “特征 分 解 


许多 数学 对 象 可 以 通过 将 它们 分 解 成 多 个 组 成 部 分 ， 或 者 找到 它们 的 一 些 属 性 
而 更 好 地 理解 ， 这 些 属性 是 通用 的 ， 而 不 是 由 我 们 选择 表示 它们 的 方式 产生 的 。 

例如 ， 整 数 可 以 分 解 为 质 因 数 。 我 们 可 以 用 十 进 制 或 二 进 制 等 不 同方 式 表 示 整 
数 12, 但 是 12 = 2 x 3 x 3 永远 是 对 的 。 从 这 个 表示 中 我 们 可 以 获得 一 些 有 用 的 信 
息 ， 比 如 12 不 能 被 5 整除 ， 或 者 12 的 倍数 可 以 被 3 整除 。 

正如 我 们 可 以 通过 分 解 质 因 数 来 发 现 整 数 的 一 些 内 在 性 质 ， 我 们 也 可 以 通过 分 
解 矩 阵 来 发 现 和 矩阵 表示 成 数组 元 素 时 不 明显 的 函数 性 质 。 

特征 分 解 (eigendecomposition ) 是 使 用 最 广 的 矩阵 分 解 之 一 ， 即 我 们 将 矩阵 分 
解 成 一 组 特征 向 量 和 特征 值 。 

方 阵 A 的 特征 向 量 (eigenvector) 是 指 与 A 相 乘 后 相当 于 对 该 向 量 进 行 缩放 
的 非 零 向 量 v: 








Av = \v. (2.39) 
标量 入 被 称 为 这 个 特征 向 量 对 应 的 特征 值 (eigenvalue )。 (类 似 地 ， 我 们 也 可 以 
定义 左 特征 向 量 (left eigenvector) v! A = 和 Av' ， 但 是 通常 我 们 更 关注 右 特 征 向 量 
(Tight eigenvector ) )。 

如 果 vÆ A 的 特征 向 量 ,， 那么 任何 缩放 后 的 向 量 sv (s ER, s #0) 也 是 4 的 
特征 向 量 。 此 外 ，sw 和 wv 有 相同 的 特征 值 。 基 于 这 个 原因 ， 通 党 我 们 只 考虑 单位 特 
征 向 量 。 

假设 和 矩阵 AA n 个 线性 无 关 的 特征 向 量 (P,P IE EL 
{Ar Anto 我 们 将 特征 向 量 连接 成 一 个 矩阵 ， 使 得 每 一 列 是 一 个 特征 向 量 : 
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V= [0 ,..., 0]. 类 似 地 ,我 们 也 可 以 将 特征 值 连接 成 一 个 向 量 入 = [At An] To 
因此 A 的 特征 分 解 (eigendecomposition ) 可 以 记 作 


A = Vdiag(A)V~*. (2.40) 


我 们 已 经 看 到 了 构建 具有 特定 特征 值 和 特征 向 量 的 和 矩阵， 能 够 使 我 们 在 目标 方 
向 上 延伸 空间 。 然而, 我们 也 常常 希望 将 矩阵 分解 ( decompose) 成 特征 值 和 特征 向 
量 。 这 样 可 以 帮助 我 们 分 析 和 矩阵 的 特定 性 质 ， 就 像 质 因数 分 解 有 助 于 我 们 理解 整数 。 
不 是 每 一 个 矩阵 都 可 以 分 解 成 特征 值 和 特征 向 量 。 在 某 些 情 况 下 ， 特 征 分 解 存 
在 ， 但 是 会 涉及 到 复数 ， 而 非 实 数 。 和 幸运 的 是 ， 在 本 书 中 我 们 通 带 只 需要 分 解 一 类 
有 简单 分 解 的 矩阵 。 具 体 地 ， 每 个 实 对 称 和 矩阵 都 可 以 分 解 成 实 特征 向 量 和 实 特征 值 : 


A=QAQ'. (2.41) 


其 中 Q 是 A WREE, A EAEE, RIE A 对 应 的 特征 
向 量 是 矩阵 Q 的 第 i 列 , 记 作 Q.;。 因 为 Q 是 正 交 和 矩阵， 我 们 可 以 将 A 看 作 是 沿 
方向 vO 延展 A 倍 的 空间 。 如 图 2.3 所 示 的 例子 。 

虽然 任意 一 个 实 对 称 和 矩阵 4 都 有 特征 分 解 ， 但 是 特征 分 解 可 能 并 不 唯一 。 如 果 
两 个 或 多 个 特征 向 量 拥有 相同 的 特征 值 ， 那 么 在 由 这 些 特 征 向 量 产生 的 生成 子 空间 
中 ,任意 一 组 正 交 向 量 都 是 该 特征 值 对 应 的 特征 向 量 。 因 此 ， 我 们 可 以 等 价 地 从 这 
些 特征 向 量 中 构成 Q 作为 替代 。 按 照 惯例 ， 我 们 通常 按 降 序 排 列 A 的 元 素 。 在 该 
约定 下 ， 特 征 分 解 唯 一 当 且 仅 当 所 有 的 特征 值 都 是 唯一 的 。 

和 抢 阵 的 特征 分 解 给 了 我 们 很 多 关于 和 矩阵 的 有 用 信息 。 移 阵 是 奇异 的 当 且 仅 当 含 
有 零 特 征 值 。 实 对 称 和 抢 阵 的 特征 分 解 也 可 以 用 于 优化 二 次 方程 f(x) = 2 4z， 其 中 
限制 æl = 1。 当 z 等 于 4 的 某 个 特征 向 量 时 ，f 将 返回 对 应 的 特征 值 。 在 限制 条 
FER, PRC f 的 最 大 值 是 最 大 特征 值 ， 最 小 值 是 最 小 特征 值 。 

所 有 特征 值 都 是 正 数 的 矩阵 被 称 为 正定 ( positive definite ); 所 有 特征 值 都 是 非 
负数 的 矩阵 被 称 为 半 正 定 (positive semidefinite )。 同 样 地 ， 所 有 特征 值 都 是 负数 的 
和 矩阵 被 称 为 负 定 (negative definite); 所 有 特征 值 都 是 非 正 数 的 和 矩阵 被 称 为 半 负 定 
(negative semidefinite )。 半 正定 矩阵 受到 关注 是 因为 它们 保证 Yz,z 4z > 0。 此 外 ， 
正定 和 矩阵 还 保证 z7r4z=0 僵 z=0。 
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Effect of eigenvectors and eigenvalues 








Before multiplication 


After multiplication 

















2 2 
1 y) J 1 
y 0 ay 0 
(2) 
—1 4 一 1 
_9 _9 
3 _3 | 
=4 =2 = 0 1 2 3 —3 —2 -l 0 1 2 3 
To To 








图 2.3: (RPE m EREE ERAR RAE TD REE EARR — PSE, EAE, EE 
A 有 两 个 标准 正 交 的 特征 向 量 ， 对 应 特征 值 为 Xi 的 wt? 以 及 对 应 特征 值 为 A2 的 ww2) 。( 左 ) 我 
们 画 出 了 所 有 的 单位 向 量 wu € R? 的 集合 ， 构 成 一 个 单位 圆 。( 右 ) 我 们 画 出 了 所 有 的 Au 点 的 集 
合 。 通 过 观察 A 拉 伸 单位 圆 的 方式 ， 我 们 可 以 看 到 它 将 vO 方向 的 空间 拉 伸 了 入; fo 















































2.8 ”奇异 值 分 解 


在 第 2.7 节 ， 我 们 探讨 了 如 何 将 矩阵 分 解 成 特征 向 量 和 特征 值 。 还 有 另 一 种 分 解 
矩阵 的 方法 ， 被 称 为 育 异 值 分 解 (singular value decomposition, SVD )， 将 和 矩阵 分 
解 为 奇异 向 量 (singular vector) 和 奇异 值 (singular value )。 通 过 奇异 值 分 解 ， 我 
们 会 得 到 一 些 与 特征 分 解 相 同类 型 的 信息 。 然 而 ， 奇 异 值 分 解 有 更 广泛 的 应 用 。 
个 实数 矩阵 都 有 一 个 奇异 值 分 解 ， 但 不 一 定 都 有 特征 分 解 。 例 如 ， 非 方 阵 的 矩阵 没 
有 特征 分 解 ， 这 时 我 们 只 能 使 用 奇异 值 分 解 。 

回想 一 下 ,我们 使 用 特征 分 解 去 分 析 和 矩阵 A 时 ， 得 到 特征 向 量 构成 的 矩阵 V 
和 特征 值 构成 的 向 量 和 和， 我们 可 以 重新 将 4 写作 





A = Vdiag(A)V.. (2.42) 
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奇异 值 分 解 是 类 似 的 ， 只 不 过 这 回 我 们 将 矩阵 4 分 解 成 三 个 矩阵 的 乘积 : 
A=UDV'. (2.43) 


假设 A 是 一 个 m xn 的 矩阵 , 那么 UEA m x m 的 和 矩阵 ,万 是 一 个 mm xm 
的 和 矩阵， 是 一 个 n x n FER 

这 些 和 矩阵 中 的 每 一 个 经 定义 后 都 拥有 特殊 的 结构 。 和 矩 阵 UM V 都 被 定义 为 正 
ZEE, MEE D BRE SOOT PARE. TER, FEM D 不 一 定 是 方 阵 。 

XT AFR: D 对 角 线 上 的 元 素 被 称 为 矩阵 A 的 奇异 值 (singular value). 4ER 
U 的 列 向 量 被 称 为 AF) (left singular vector )， 和 矩阵 六 的 列 向 量 被 称 右 奇 异 


向 量 (right singular vector )。 


事实 上 ， 我 们 可 以 用 与 4 相关 的 特征 分 解 去 解释 4 的 奇异 值 分 解 。4 的 左 奇 
异 向 量 (left singular vector ) 是 44 ”的 特征 向 量 。 4 的 右 奇异 向 量 ( right singular 
vector) 是 4 4 的 特征 向 量 。4 的 非 零 奇异 值 是 A’ A 特征 值 的 平方 根 ， 同 时 也 是 
AA' 特征 值 的 平方 根 。 


SVD 最 有 用 的 一 个 性 质 可 能 是 拓展 矩阵 求 逆 到 非 方 矩阵 上 。 我 们 将 在 下 一 节 中 
探讨 。 


2.9 Moore-Penrose H% 


对 于 非 方 矩阵 而 言 ， 其 逆 和 矩阵 没有 定义 。 假 设 在 下 面 的 问题 中 ， 我 们 希望 通过 
和 矩阵 A 的 左 逆 B 来 求解 线性 方程 ， 


Az=y (2.44) 
SW WAAC Bla, RAA 
x= By. (2.45) 


取决 于 问题 的 形式 ， 我 们 可 能 无 法 设计 一 个 唯一 的 映射 将 4 映射 到 五。 
如 果 和 矩阵 4 的 行 数 大 于 列 数 ， 那 么 上 述 方程 可 能 没有 解 。 如 果 抢 阵 4 的 行 数 
小 于 列 数 ， 那 么 上 述 矩 阵 可 能 有 多 个 解 。 
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Moore-Penrose {Aj# ( Moore-Penrose pseudoinverse ) 使 我 们 在 这 类 问题 上 
PÁT EWER, EE A 的 伪 逆 定义 为 : 
4+ = lim(A A +aD A". (2.46) 
计算 伪 逆 的 实际 算法 没有 基于 这 个 定义 ， 而 是 使 用 下 面 的 公式 : 


At=VD'U'. (2.47) 





EP, E U, DA VEEE ASENSI 2 Ay BE. IAEE DD AY hat 
Dt 是 其 非 零 元 素 取 倒 数 之 后 再 转 置 得 到 的 。 
HAEE A 的 列 数 多 于 行 数 时 ， 使 用 伪 逆 求解 线性 方程 是 众多 可 能 解法 中 的 一 
种 。 特 别 地 ，z = A y 是 方程 所 有 可 行 解 中 欧 几 里 得 范 数 |zll。 最 小 的 一 个 。 
“MSRM A 的 行 数 多 于 列 数 时 ， 可 能 没有 解 。 在 这 种 情况 下 ， 通 过 伪 逆 得 到 的 z 
使 得 Ax 和 y 的 欧 几 里 得 距离 |4z- yll 最 小 。 














迹 运算 返回 的 是 矩阵 对 角 元 素 的 和 : 


迹 运 算 因 为 很 多 原因 而 有 用 。 若 不 使 用 求 和 符号 ， 有 些 和 矩阵 运算 很 难 描述 ， 而 通 
过 矩阵 乘法 和 迹 运 算 符 号 ， 可 以 清楚 地 表示 。 例 如 ， 迹 运算 提供 了 另 一 种 描述 乞 


M:Frobenius 范 数 的 方式 : 
All p = (TAA). (2.49) 


用 迹 运算 表示 表达 式 ， 我 们 可 以 使 用 很 多 有 用 的 等 式 巧 妙 地 处 理 表达 式 。 例 如 ， 
迹 运算 在 转 置 运算 下 是 不 变 的 ; 








Tr(A) = Tr(A‘). (2.50) 


多 个 矩阵 相 乘 得 到 的 方 阵 的 迹 ， 和 将 这 些 和 矩阵 中 的 最 后 一 个 挪 到 最 前 面 之 后 相 
乘 的 迹 是 相同 的 。 当 然 ， 我 们 需要 考虑 挪动 之 后 和 矩阵 乘积 依然 定义 良好 : 


Tr(ABC) = Tr(CAB) = Tr(BCA). (2.51) 
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或 者 更 一 般 地 ， 


n n-1 
TU F°) = Tr(F” [| F). (2.52) 
j=l 


4=1 
即使 循环 置换 后 矩阵 乘积 得 到 的 矩阵 形状 变 了 ， 迹 运算 的 结果 依然 不 变 。 例 如 ， 假 
WIERE A c R”*”, FER Be R**m， 我 们 可 以 得 到 


Tr(AB) = Tr(BA) (2.53) 


尽管 ABeER™™ 和 BA € R"™”, 
另 一 个 有 用 的 事实 是 标量 在 迹 运算 后 仍然 是 它 自 己 : a = Tr(a). 





2.11 行列 式 


行列 式 , 记 作 det(4)， 是 一 个 将 方 阵 4 映射 到 实数 的 函数 。 行列 式 等 于 和 矩阵 特 
征 值 的 乘积 。 行 列 式 的 绝对 值 可 以 用 来 衡量 矩阵 参与 矩阵 乘法 后 空间 扩大 或 者 缩小 
了 多 少 。 如 果 行 列 式 是 0， 那 么 空间 至 少 沿 着 某 一 维 完全 收缩 了 , 使 其 失去 了 所 有 的 
体积 。 如 果 行 列 式 是 1， 那 么 这 个 转换 保持 空间 体积 不 变 。 


2.12 ”实例 : 主 成 分 分 析 


主 成 分 分 析 (principal components analysis, PCA ) 是 一 个 简单 的 机 器 学 习 算 
法 ， 可 以 通过 基础 的 线性 代数 知识 推导 。 

假设 在 IR” 空间 中 我 们 有 m 个 点 {x2 四)... ,2 中}， 我 们 希望 对 这 些 点 进行 有 损 
压缩 。 有 损 压缩 表示 我 们 使 用 更 少 的 内 存 ， 但 损失 一 些 精 度 去 存储 这 些 点 。 我 们 希 
望 损失 的 精度 尽 可 能 少 。 

一 种 编码 这 些 点 的 方式 是 用 低 维 表示 。 对 于 每 个 点 zt ER”, 会 有 一 个 对 应 的 
编码 向 量 CO ER, WRT 比 n 小 ， 那 么 我 们 便 使 用 了 更 少 的 内 存 来 存储 原来 的 数 
据 。 我 们 希望 找到 一 个 编码 函数 ， 根 据 输入 返回 编码 ，f (zx) = c; 我 们 也 希望 找到 一 
个 解码 函数 ， 给 定编 码 重 构 输 入 ，z 守 g(f (72))。 

PCA 由 我 们 选择 的 解码 函数 而 定 。 具 体 地 ， 为 了 简化 解码 器 ， 我 们 使 用 抢 阵 乘 
法 将 编码 映射 回 R*， 即 gle) = De, HP D eR?” 是 定义 解码 的 矩阵 。 
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目前 为 止 所 描述 的 问题 ， 可 能 会 有 多 个 解 。 因 为 如 果 我 们 按 比例 地 缩小 所 有 点 
对 应 的 编码 向 量 c;， 那 么 我 们 只 需 按 比例 放大 D.;， 即 可 保持 结果 不 变 。 为 了 使 问 
题 有 唯一 解 ， 我 们 限制 D 中 所 有 列 向 量 都 有 单位 范 数 。 

计算 这 个 解码 器 的 最 优 编码 可 能 是 一 个 困难 的 问题 。 为 了 使 编码 问题 简单 一 些 ， 
PCA 限制 D 的 列 向 量 彼此 正 交 (注意 ， 除 非 1 = n， 否 则 严格 意义 上 D 不 是 一 个 
正 交 和 矩阵 )。 

为 了 将 这 个 基本 想法 变 为 我 们 能 够 实现 的 算法 ， 首 先 我 们 需要 明确 如 何 根 据 每 
一 个 输入 x 得 到 一 个 最 优 编码 ce*。 一 种 方法 是 最 小 化 原始 输入 向 量 zx 和 重 构 向 量 
g(c*) 之 间 的 距离 。 我 们 使 用 范 数 来 衡量 它们 之 间 的 距离 。 在 PCA 算法 中 ,我 们 使 
用 D? 范 数 : 

















c* = argmin ||æ— g(c)||,. (2.54) 


我 们 可 以 用 平方 L 范 数 替 代 L 范 数 ， 因 为 两 者 在 相同 的 值 e 上 取得 最 小 值 。 
这 是 因为 L? 范 数 是 非 负 的 ， 并 且 平 方 运算 在 非 负 值 上 是 单调 递增 的 。 
c =argmin|lzs —g(o)l2. (2.55) 
该 最 小 化 函数 可 以 简化 成 
(x— g(c)) (x — g(e)) (2.56) 
( 式 (2.30) P L? 范 数 的 定义 ) 
= a'a—2'g(c)—g(c)'a+9(c)'g(c) (2.57) 
(分 配 律 ) 
= @! 2 — 22' 9(c) + g(c)' g(c) (2.58) 
(因为 标量 o(c)' ae 的 转 置 等 于 自己 ) 
因为 第 一 项 zz 不 依赖 于 c， 所 以 我 们 可 以 忽略 它 ， 得 到 如 下 的 优化 目标 : 
c= arg min 一 2z g(c) + 9(c)'g(e). (2.59) 
更 进一步 ， 我 们 代入 g(c) 的 定义 : 
cr = arg min —2x'De+c'D' De (2.60) 


=argmin—22'De+e' Te (2.61) 
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(矩阵 D 的 正 交 性 和 单位 范 数 约束 ) 


=argmin—2a'De+c'c (2.62) 

我 们 可 以 通过 向 量 微 积 分 来 求解 这 个 最 优化 问题 〈 如 果 你 不 清楚 怎么 做 ， 请 参 
考 第 4.3 节 ) 

V.(—22' Dece+ecrc)=0 (2.63) 

~2D'2+2c=0 (2.64) 

c= D'r. (2.65) 


这 使 得 算法 很 高 效 : 最 优 编码 z 只 需要 一 个 矩阵 -向 量 乘 法 操作 。 为 了 编码 向 量 ， 
我 们 使 用 编码 函数 : 
f(z)=D'z. (2.66) 
进一步 使 用 矩阵 乘法 ， 我 们 也 可 以 定义 PCA 重 构 操作 : 


r(x) = g(f(a)) = DD” z. (2.67) 


接 下 来 ,我 们 需要 挑选 编码 矩阵 D。 要 做 到 这 一 点 ， 我们 回顾 最 小 化 输入 和 重 
构 之 间 L? 距离 的 这 个 想法 。 因 为 我 们 用 相同 的 矩阵 D 对 所 有 点 进行 解码 ， 我 们 
不 能 再 扳 立 地 看 得 每 个 点 。 反 之 ， 我 们 必须 最 小 化 所 有 维 数 和 所 有 点 上 的 误差 矩阵 
HY) Frobenius 范 数 : 





D* = arg min 2 (人 z ray) subject to D' D = h. (2.68) 
为 了 推导 用 于 寻求 D* 的 算法 ,我 们 首先 考虑 1 = 1 的 情况 。 在 这 种 情况 下 ，D 
是 一 个 单一 向 量 d。 将 式 (2.67) 代入 式 (2.68), E DX d, 问题 简化 为 
d = i 
gi | 
上 述 公 式 是 直接 代入 得 到 的 , 但 不 是 文体 表述 最 舒服 的 方式 。 在 上 述 公 式 中 , 我 
们 将 标量 d'O 放 在 向 量 d 的 右边 。 将 该 标量 放 在 左边 的 写法 更 为 传统 。 于 是 我 们 
通常 写作 如 下 : 


d= argmin X` | 
d 


: ||2 
a 一 dd zd subject to lldl,=1. (2.69) 
2 

















2 
a) — dT) a| subject to | dl。 = 1, (2.70) 
2 
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或 者 ， 考 虑 到 标量 的 转 置 和 自身 相等 ， 我 们 也 可 以 写作 : 
d= en) Fee 一 a" ddl), subject to ||d||, = 1. (2.71) 
读者 应 该 对 这 些 重 排 写法 慢 慢 熟悉 起 来 。 
此 时 ， 使 用 单一 矩阵 来 重 述 问题 ， 比 将 问题 写成 求 和 形式 更 有 帮助 。 这 有 助 于 


我 们 使 用 更 紧凑 的 符号 。 将 表示 各 点 的 向 量 堆 释 成 一 个 矩阵 , 记 为 X eR”, Hp 
X = zx 。 原 问题 可 以 重新 表述 为 : 








2 
|x- Xad | subject to d'd=1. (2.72) 
F 





d = arg min 
d 


暂时 不 考虑 约束 ， 我 们 可 以 将 Frobenius 范 数 简化 成 下 面 的 形式 : 








ang min |x- xad || (2.73) 
= arg min Tr ((x- Xd") (x- xaa") ) (2.74) 

(xk (2.49) ) 
= argmin Tr (x Me x" xdd" — dd' X” X+ ddTXTXdd ) (2.75) 





= arg min Tr( X! X) — Tr(X' Xdd') — Tr(dd' X' X) + Tr(dd' X' Xdd') (2.76) 
= arg min — Tr(X' Xdd') — Tr(dd' X' X) + Tr(dd' X' Xdd' ) (2.77) 
( 因为 与 d 无 关 的 项 不 影响 arg min ) 
= arg min 一 2Tr(X Xdd') + Tr(dd' X' Xdd') (2.78) 
(因为 循环 改变 迹 运 算 中 相 乘 矩阵 的 顺序 不 影响 结果 ， 如 式 (2.52) 所 示 ) 
= arg min — 2Tr(X' Xdd') + Tr(X' Xdd' dd') (2.79) 
(再 次 使 用 上 述 性 质 ) 
此 时 ,我 们 再 来 考虑 约束 条 件 : 


argmin — 2Tr(X' Xdd') + Tr(X' Xdd' dd') subject to d' d= 1 (2.80) 
d 
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= arg min — 2Tr(X' Xdd') + Tr(X' Xdd') subject to d'd=1 (2.81) 

(因为 约束 条 件 ) 
一 argmin — Tr(X' Xdd') subject to d'd=1 (2.82) 
= arg max Tr(X' Xdd') subject to d'd=1 (2.83) 
= arg max Tr(d X' Xd) subject to d'd=1. (2.84) 


这 个 优化 问题 可 以 通过 特征 分 解 来 求解 。 具 体 地 ， 最 优 的 d 是 XX X 最 大 特征 
值 对 应 的 特征 向 量 。 

以 上 推导 特定 于 /= 1 的 情况 ， 仅 得 到 了 第 一 个 主 成 分 。 更 一 般 地 ， 当 我 们 希望 
得 到 主 成 分 的 基 时 ， 矩 阵 DD 由 前 7 个 最 大 的 特征 值 对 应 的 特征 向 量 组 成 。 这 个 结论 
可 以 通过 归纳 法 证 明 ， 我 们 建议 将 此 证 明 作为 练习 。 

线性 代数 是 理解 深度 学 习 所 必须 掌握 的 基础 数学 学 科 之 一 。 另 一 门 在 机 器 学 习 
中 无 处 不 在 的 重要 数学 学 科 是 概率 论 ， 我 们 将 在 下 章 探讨 。 
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本 章 我 们 讨论 概率 论 和 信息 论 。 

概率 论 是 用 于 表示 不 确定 性 声明 (statement) 的 数学 框架 。 它 不 仅 提 供 了 量化 
不 确定 性 的 方法 , 也 提供 了 用 于 导出 新 的 不 确定 性 声明 的 公理 。 在 人 工 智 能 领域 ， 概 
率 论 主要 有 两 种 用 途 。 首 先 ， 概 率 法 则 告诉 我 们 AI 系统 如 何 推理 ， 据 此 我 们 设计 一 
些 算 法 来 计算 或 者 估算 由 概率 论 导 出 的 表达 式 。 其 次 ， 我 们 可 以 用 概率 和 统计 从 理 
论 上 分 析 我 们 提出 的 AI 系统 的 行为 。 

概率 论 是 众多 科学 和 工程 学 科 的 基本 工具 。 我 们 提供 这 一 章 是 为 了 保证 那些 背 
景 是 软件 工程 而 较 少 接触 概率 论 的 读者 也 可 以 理解 本 书 的 内 容 。 

概率 论 使 我 们 能 够 作出 不 确定 的 声明 以 及 在 不 确定 性 存在 的 情况 下 进行 推理 ， 
而 信息 论 使 我 们 能 够 量化 概率 分 布 中 的 不 确定 性 总 量 。 

如 果 你 已 经 对 概率 论 和 信息 论 很 熟悉 了 , 那么 除了 第 3.14 节 以 外 的 整 章 内 容 , 你 
都 可 以 跳 过 。 而 在 第 3.14 节 中 ， 我 们 会 介绍 用 来 描述 机 器 学 习 中 结构 化 概率 模型 的 
图 。 即 使 你 对 这 些 主题 完全 没有 任何 的 先 验 知识 ， 本 章 对 于 完成 深度 学 习 的 研究 项 
目 来 说 已 经 足够 ， 但 我 们 还 是 建议 你 能 够 参考 一 些 额 外 的 资料 ， 例 如 Jaynes (2003)。 











31 为 什么 要 使 用 概率 ? 


计算 机 科学 的 许多 分 支 处 理 的 实体 大 部 分 都 是 完全 确定 且 必 然 的 。 程 序 员 通常 
可 以 安全 地 假定 CPU 将 完美 地 执行 每 条 机 带 指 令 。 硬件 错误 确实 会 发 生 , 但 它们 足 
够 罕见 ， 以 致 于 大 部 分 软件 应 用 在 设计 时 并 不 需要 考虑 这 些 因 素 的 影响 。 鉴 于 许多 
计算 机 科学 家 和 软件 工程 师 在 一 个 相对 干净 和 确定 的 环境 中 工作 ， 机 器 学 习 对 于 概 
率 论 的 大 量 使 用 是 很 令 人 上 吃 慰 的 。 
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这 是 因为 机 还 学 习 通常 必须 处 理 不 确定 量 ,， 有 时 也 可 能 需要 处 理 随机 ( 非 确定 性 
AY) 量 。 不 确定 性 和 随机 性 可 能 来 自 多 个 方面 。 至 少 从 20 世纪 80 FRFR, WMR 
人 员 就 对 使 用 概率 论 来 量化 不 确定 性 提出 了 令 人 信服 的 论据 。 这 里 提出 的 许多 论点 
都 是 根据 Pearl (1988) 总 结 或 启发 得 到 的 。 

几乎 所 有 的 活动 都 需要 能 够 在 不 确定 性 存在 时 进行 推理 。 事 实 上 ， 除 了 那些 被 
定义 为 真 的 数学 声明 ， 我 们 很 难 认 定 某 个 命题 是 千 真 万 确 的 或 者 确保 某 件 事 一 定 会 
发 生 。 

不 确定 性 有 三 种 可 能 的 来 源 : 





1. 被 建 模 系统 内 在 的 随机 性 。 例 如 ， 大 多 数量 子 力学 的 解释 ， 都 将 亚 原子 粒子 的 
动力 学 描述 为 概率 的 。 我 们 还 可 以 创建 一 些 我 们 假设 具有 随机 动态 的 理论 情境 ， 
例如 一 个 假想 的 纸牌 游戏 , 在 这 个 游戏 中 我 们 假设 纸牌 真正 混 洗 成 了 随机 顺序 。 


. 不 完全 观测 。 即 使 是 确定 的 系统 ， 当 我 们 不 能 观测 到 所 有 驱动 系统 行为 的 变量 
时 ,该 系统 也 会 呈现 随机 性 。 例如; 在 Monty Hall 问题 中 , 一 个 游戏 节目 的 参 
赛 者 被 要 求 在 三 个 门 之 间 选 择 并 且 万 得 放置 在 选中 门 后 的 奖金 。 两 扇 门 通 向 山 
羊 ， 第 三 扇 门 通 向 一 辆 汽车 。 选 手 选择 所 导致 的 结果 是 确定 的 ， 但 是 站 在 选手 
的 角度 ， 结 果 是 不 确定 的 。 


. 不 完全 建 模 。 当 我 们 使 用 一 些 必须 舍弃 某 些 观测 信息 的 模型 时 ,舍弃 的 信息 会 
导致 模型 的 预测 出 现 不 确定 性 。 例 如 ,假设 我 们 制作 了 一 个 机 器 人 ， 它 可 以 准 
确 地 观察 周围 每 一 个 对 象 的 位 置 。 如 果 预 测 这 些 对 象 将 来 的 位 置 时 机 器 人 采用 
的 是 离散 化 的 空间 ， 那 么 离散 化 使 得 机 带 人 立即 变 得 不 能 确定 对 象 的 精确 位 置 : 
每 个 对 象 都 可 能 处 于 它 被 观察 到 占据 的 离散 单元 的 任何 位 置 。 


N 





CD 





在 很 多 情况 下 ， 使 用 一 些 简 单 而 不 确定 的 规则 要 比 复杂 而 确定 的 规则 更 为 实用 ， 
即使 真正 的 规则 是 确定 的 并 且 我 们 建 模 的 系统 可 以 足够 精确 地 容纳 复杂 的 规则 。 例 
如 ， 简 单 的 原则 “多 数 鸟 儿 都 会 习 ” 的 描述 很 简单 很 并 且 使 用 广泛 ， 而 正式 的 规则 
一 一 “除了 那些 非常 小 的 还 没 学 会 飞翔 的 幼 鸟 ， 因 为 生病 或 是 受伤 而 失去 了 飞翔 能 力 
WS, AS KN SRA AS (cassowary), K$ (ostrich), JLAE (kiwi, 一 种 新 西 
兰 产 的 无 辟 鸟 )…… 等 等 ， 鸟 会 各， 很 难 应 用 、 维 护 和 沟通 ， 即 使 经 过 所 有 这 些 的 努 
力 ， 这 些 规 则 还 是 很 脆弱 的 ， 并 且 容 易 失效 。 

尽管 我 们 的 确 需要 一 种 用 以 对 不 确定 性 进行 表示 和 推理 的 方法 ， 但 是 概率 论 并 
不 能 明显 地 提供 我 们 在 人 工 智能 领域 需要 的 所 有 工具 。 概 率 论 最 初 的 发 展 是 为 了 分 
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析 事 件 发 生 的 频率 。 我 们 可 以 很 容易 地 看 出 概率 论 ， 对 于 像 在 扑克 牌 游戏 中 抽出 一 
手 特 定 的 牌 这 种 事件 的 研究 中 ， 是 如 何 使 用 的 。 这 类 事件 往往 是 可 以 重复 的 。 当 我 
们 说 一 个 结果 发 生 的 概率 为 p»， 就 意味 着 如 果 我 们 反复 实验 (例如 ， 抽 取 一 手 牌 ) 无 
EK, A p 的 比例 会 导致 这 样 的 结果 。 这 种 推理 似乎 并 不 立即 适用 于 那些 不 可 重复 
的 命题 。 如 果 一 个 医生 诊断 了 病人 ， 并 说 该 病人 患 流感 的 几率 为 40%， 这 意味 着 非 
党 不 同 的 事情 一 一 我 们 既 不 能 让 病人 有 无 穷 多 的 副本 ， 也 没有 任何 理由 去 相信 病人 
的 不 同 副本 在 具有 不 同 的 潜在 条 件 下 表现 出 相同 的 症状 。 在 医生 诊断 病人 的 情况 下 ， 
我 们 用 概率 来 表示 一 种 BEE (degree of belief )， 其 中 1 表示 非常 肯定 病人 患 有 流 
感 ， 而 0 表示 非常 肯定 病人 没有 流感 。 前 面 一 种 概率 ， 直 接 与 事件 发 生 的 频率 相 联 
A, BAKA 频率 派 概率 ( frequentist probability); 而 后 者 ， 涉 及 到 确定 性 水 平 ， 被 
PON 贝 叶 斯 概率 ( Bayesian probability ). 

如 果 要 列 出 一 些 关 于 不 确定 性 的 常识 推理 中 我 们 希望 其 具有 的 性 质 ， 那 么 满足 
这 些 性 质 的 唯一 一 点 就 是 将 贝 叶 斯 概率 和 频率 派 概率 视 为 等 同 的 。 例 如 ， 如 果 我 们 
要 在 扑克 牌 游戏 中 根据 玩家 手 上 的 牌 计 算 她 能 够 获胜 的 概率 ， 我 们 和 医生 情境 使 用 
完全 相同 的 公式 ， 就 是 我 们 依据 病人 的 某 些 症状 计算 她 是 否 患 病 的 概率 。 有 关 一 个 
小 集合 的 常识 假设 为 什么 能 够 导出 相同 公理 的 细节 必须 深入 了 解 这 两 种 概率 ， 参 
见 Ramsey (1926)。 

概率 可 以 被 看 作 是 用 于 处 理 不 确定 性 的 逻辑 扩展 。 逻 辑 提供 了 一 套 形式 化 的 规 
则 , 可 以 在 给 定 某 些 命题 是 真 或 假 的 假设 下 , 判断 另外 一 些 命题 是 真 的 还 是 假 的 。 概 
率 论 提供 了 一 套 形式 化 的 规则 ， 可 以 在 给 定 一 些 命题 的 似 然后 ， 计 算 其 他 命题 为 真 
的 似 然 。 
































3.2 ”随机 变量 


随机 变量 (random variable ) 是 可 以 随机 地 取 不 同 值 的 变量 。 我 们 通常 用 无 格 
式 字 体 (plain typeface) 中 的 小 写字 母 来 表示 随机 变量 本 身 ， 而 用 手写 体 中 的 小 写字 
母 来 表示 随机 变量 能 够 取 到 的 值 。 例 如 ，zi 和 zx。 都 是 随机 变量 x 可 能 的 取 值 。 对 
于 向 量 值 变量 ， 我 们 会 将 随机 变量 写成 x， 它 的 一 个 可 能 取 值 为 z。 就 其 本 身 而 言 ， 
一 个 随机 变量 只 是 对 可 能 的 状态 的 描述 ; 它 必须 伴随 着 一 个 概率 分 布 来 指定 每 个 状 
态 的 可 能 性 。 

随机 变量 可 以 是 离散 的 或 者 连续 的 。 离 散 随机 变量 拥有 有 限 或 者 可 数 无 限 多 的 
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状态 。 注 意 这 些 状态 不 一 定 非 要 是 整数 ; 它们 也 可 能 只 是 一 些 被 命名 的 状态 而 没有 
数值 。 连 续 随机 变量 伴随 着 实数 什 。 
3.3 ”概率 分 布 

概率 分 布 (probability distribution ) 用 来 描述 随机 变量 或 一 复 随 机 变量 在 每 一 


个 可 能 取 到 的 状态 的 可 能 性 大 小 。 我 们 描述 概率 分 布 的 方式 取决 于 随机 变量 是 离散 
的 还 是 连续 的 。 





3.3.1 ”离散 型 变量 和 概率 质量 函数 


离散 型 变量 的 概率 分 布 可 以 用 概率 质量 函数 ( probability mass function, PMF ) 
1 来 描述 。 我 们 通常 用 大 写字 母 P 来 表示 概率 质量 男 数 。 通 党 每 一 个 随机 变量 都 会 有 
一 个 不 同 的 概率 质量 孔 数 ， 并 有 旦 读者 必须 根据 随机 变量 来 推断 所 使 用 的 PMF， 而 不 
是 根据 丽 数 的 名 称 来 推断 ; 例如 ，P(x) 通常 和 Ply) 不 一 样 。 

概率 质量 函数 将 随机 变量 能 够 取得 的 每 个 状态 映射 到 随机 变量 取得 该 状态 的 概 
率 。x=2 的 概率 用 P(x) 来 表示 ， 概 率 为 1 表示 x = x 是 确定 的 ， 概 率 为 0 表示 
x= r 是 不 可 能 发 生 的 。 有 时 为 了 使 得 PMF 的 使 用 不 相互 混淆 ， 我 们 会 明确 写 出 随 
机 变量 的 名 称 : P(x = z)。 有 时 我 们 会 先 定义 一 个 随机 变量 ， 然 后 用 ~ 符号 来 说 明 
它 遵 循 的 分 布 : x ~ P(x). 

概率 质量 水 数 可 以 同时 作用 于 多 个 随机 变量 。 这 种 多 个 变量 的 概率 分 布 被 称 
为 联合 概率 分 布 (joint probability distribution). P(x = x,y = y) ŠIR x = z 和 
y =y 同时 发 生 的 概率 。 我 们 也 可 以 简写 为 P(x,y)。 

如 果 一 个 函数 P 是 随机 变量 x 的 PMF， 必 须 满 足下 面 这 儿 个 条 件 : 





o P 的 定义 域 必须 是 x 所 有 可 能 状态 的 集合 。 


e Vz € x,0 < P(x) < 1. 不 可 能 发 生 的 事件 概率 为 0， 并 且 不 存在 比 这 概率 更 低 
的 状态 。 类 似 的 ， 能 够 确保 一 定 发 生 的 事件 概率 为 1， 而 且 不 存在 比 这 概率 更 
高 的 状态 。 


PEATE: 国内 有 些 教材 也 将 它 翻译 成 概率 分 布 律 。 
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© ocx P(t) = 1. 我 们 把 这 条 性 质 称 之 为 归 一 化 的 ( normalized )。 如 果 没 有 这 
条 性 质 ， 当 我 们 计算 很 多 事件 其 中 之 一 发 生 的 概率 时 可 能 会 得 到 大 于 1 的 概 
率 。 





例如 ， 考 虑 一 个 离散 型 随机 变量 x 有 上 开 个 不 同 的 状态 。 我 们 可 以 假设 x 是 均匀 
$}% (uniform distribution ) 的 (也 就 是 将 它 的 每 个 状态 视 为 等 可 能 的 )， 通 过 将 它 
的 PMF 设 为 ; 
k 
对 于 所 有 的 i 都 成 立 。 我 们 可 以 看 出 这 满足 上 述 成 为 概率 质量 函数 的 条 件 。 因 为 
是 一 个 正 整 数 ， 所 以 上 是 下 的。 我们 也 可 以 看 出 


2_ P(x zi) y r 1, (3.2) 


i 








因此 分 布 也 满足 归 一 化 条 件 。 


3.3.2 ”连续 型 变量 和 概率 密度 函数 


当 我 们 研究 的 对 象 是 连续 型 随机 变量 时 ， 我 们 用 概率 密度 函数 probability 
density function, PDF ) 而 不 是 概率 质量 函数 来 描述 它 的 概率 分 布 。 如 果 一 个 函数 p 
是 概率 密度 函数 ， 必 须 满足 下 面 这 几 个 条 件 : 

e p 的 定义 域 必 须 是 x 所 有 可 能 状态 的 集合 。 
e Vr E€ x, p(x) > 0. 注意 ， 我 们 并 不 要 求 p(z) < 1。 
e | p(a)dx = 1. 

概率 密度 函数 p(x) 并 没有 直接 对 特定 的 状态 给 出 概率 ， 相 对 的 ， 它 给 出 了 落 在 
面积 为 6z 的 无 限 小 的 区 域内 的 概率 为 p(x) da. 

我 们 可 以 对 概率 密度 函数 求 积 分 来 获得 点 集 的 真实 概率 质量 。 特 别 地 ，z 落 在 
集合 S 中 的 概率 可 以 通过 ple) 对 这 个 集合 求 积分 来 得 到 。 在 单 变量 的 例子 中 ，z 落 
在 区 间 [a,b] 的 概率 是 fia ,p(x)dzx。 

为 了 给 出 一 个 连续 型 随机 变量 的 PDF 的 例子 , 我 们 可 以 考虑 实数 区 间 上 的 均匀 
分 布 。 我 们 可 以 使 用 函数 w(x;a,5)， 其 中 a 和 5 是 区 间 的 端点 且 满 足 b > a。 符 号 
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“7 表示 “以 什么 为 参数 ”; 我 们 把 x 作为 孔 数 的 自 变 量 ，a Al b 作为 定义 前 数 的 参 
数 。 为 了 确保 区 间 外 没有 概率 ， 我 们 对 所 有 的 £g [a,b], & u(a;a,b) = 0。 在 [a,b] 
Al, 有 ulz a,b) = 于。 我 们 可 以 看 出 任何 一 点 都 非 负 。 另 外 ， 它 的 积分 为 1。 我 们 
通常 用 x ~ Ula, b) 表示 z 在 [a,b] 上 是 均匀 分 布 的 。 


3.4 边缘 概率 


有 时 候 ， 我 们 知道 了 一 组 变量 的 联合 概率 分 布 ， 但 想 要 了 解 其 中 一 个 子 集 的 概 
率 分 布 。 这 种 定义 在 子 集 上 的 概率 分 布 被 称 为 边缘 概 素 分 布 (marginal probability 
distribution ), 

例如 ， 假 设 有 离散 型 随机 变量 x 和 yy， 并且 我 们 知道 P(x,y)。 我 们 可 以 依据 下 
面 的 求 和 法 则 (sum rule ) 来 计算 P(x): 





Va € x, P(x = P(x =2,y SQ (3.3) 


“边缘 概率 ”的 名 称 来 源 于 手 算 边 缘 概率 的 计算 过 程 。 当 P(x, y) 的 每 个 值 被 写 
在 由 每 行 表示 不 同 的 x 值 ， 每 列表 示 不 同 的 y 值 形成 的 网 格 中 时 ， 对 网 格 中 的 每 行 
求 和 是 很 自然 的 事情 ， 然 后 将 求 和 的 结果 Pa) 写 在 每 行 右边 的 纸 的 边缘 处 。 

对 于 连续 型 变量 ， 我 们 需要 用 积分 替代 求 和 : 





p(x) = fre y)dy. (3.4) 


3.5 ”条 件 概 率 


在 很 多 情况 下 ， 我 们 感 兴趣 的 是 某 个 事件 ， 在 给 定 其 他 事件 发 生 时 出 现 的 
概率 。 这 种 概率 叫做 条 件 概 率 。 我 们 将 给 定 x = r, y= y 发 生 的 条 件 概率 记 为 
Pl(y =y|x = 二 x)。 这 个 条 件 概 率 可 以 通过 下 面 的 公式 计算 : 





Ply 一 YX x) 
P(x = x) 
条 件 概 率 只 在 P(x = z) > 0 时 有 定义 。 我 们 不 能 计算 给 定 在 永远 不 会 发 生 的 事件 上 

的 条 件 概 率 。 


Piy=y|x=2)= (3.5) 
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这 里 需要 注意 的 是 ， 不 要 把 条 件 概率 和 计算 当 采 用 某 个 动作 后 会 发 生 什 么 相 混 
消 。 假 定 某 个 人 说 德语 ， 那 么 他 是 德国 人 的 条 件 概率 是 非常 高 的 ， 但 是 如 果 随 机 选 
择 的 一 个 人 会 说 德语 ， 他 的 国籍 不 会 因此 而 改变 。 计 算 一 个 行动 的 后 果 被 称 为 干预 
查询 (intervention query )。 干预 查询 属于 因果 模型 (causal modeling ) 的 范畴 ， 我 
们 不 会 在 本 书 中 讨论 。 








3.6 ”条 件 概率 的 链 式 法 则 


任何 多 维 随机 变量 的 联合 概率 分 布 ， 都 可 以 分 解 成 只 有 一 个 变量 的 条 件 概 率 相 
乘 的 形式 : 
P(x, ...,x) = P(x)? P(x® | x De xD), (3.6) 


这 个 规则 被 称 为 概率 的 链 式 法 则 (chain rule) 或 者 乘法 法 则 (product rule )。 
它 可 以 直接 从 式 (3.5) 条 件 概 率 的 定义 中 得 到 。 例 如 ， 使 用 两 次 定义 可 以 得 到 





P(a,b,c) = P(a|b,c)P(b,c) 
P(b,c) P(b|c)P(c) 
P(a,b,c) = P(a\b,c)P(b | c)P(c). 


3.7 ”独立 性 和 条 件 独立 性 


两 个 随机 变量 x Fly, 如果 它们 的 概率 分 布 可 以 表示 成 两 个 因子 的 乘积 形式 , 并 
且 一 个 因子 只 包含 x 男 一 个 因子 只 包含 y， 我 们 就 称 这 两 个 随机 变量 是 相互 独立 的 
( independent ): 








Vag x,y € y, p(x = xy = y) = p(x = x)p(y = y). (3.7) 


如 果 关 于 x M y 的 条 件 概率 分 布 对 于 z 的 每 一 个 值 都 可 以 写成 乘积 的 形式 ， 
那么 这 两 个 随机 变量 x 和 y 在 给 定 随 机 变量 z 时 是 条 件 独立 的 (conditionally 
independent ): 








Vz E€ x,y EY z €2Z,px=a2,y=y|z2=2) =p(x=2|z=2z)ply=y|z=2). 
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我 们 可 以 采用 一 种 简化 形式 来 表示 独立 性 和 条 件 独 立 性 : x Ly 表示 x M y 相互 
独立 ，xLy |z 表示 x F y 在 给 定 z 时 条 件 独立 。 


3.8 期望、 方差 和 协 方差 


K f(x) 关于 某 分 布 P(x) 的 期 望 (expectation ) 或 者 期 望 值 (expected 
value) 是 指 ， 当 z h P 产生 ，f 作用 于 x 时 ，f(x) 的 平均 值 。 对 于 离散 型 随 
机 变量 ， 这 可 以 通过 求 和 得 到 


Ex Plf()] = Do Pele), (3.9) 


























Empl f(o)] = f P) de (3.10) 


当 概 率 分 布 在 上 下 文中 指明 时 ， 我 们 可 以 只 写 出 期 望 作用 的 随机 变量 的 名 称 来 进行 
简化 ， 例 如 Ex[f(z)]。 如 果 期 望 作用 的 随机 变量 也 很 明确 ， 我 们 可 以 完全 不 写 脚 标 ， 
就 像 El (x) RUW, RIE El] 表示 对 方 括号 内 的 所 有 随机 变量 的 值 求 平均 。 
类 似 的 ， 当 没有 此 义 时 ， 我 们 还 可 以 省 略 方 括号 。 

期 望 是 线性 的 ， 例 如 ， 













































































Ela f(x) 二 Bo) = aEx[f(x)] + BEx[g9(@)], (3.11) 


其 中 a 和 B 不 依赖 于 z。 
HE (variance ) 衡量 的 是 当 我 们 对 z 依据 它 的 概率 分 布 进行 采样 时 ， 随 机 变 
量 x 的 函数 值 会 呈现 多 大 的 差异 : 























Var(j(z)) = E [(f(«) — E[f(2)])?]. (3.12) 
当 方 差 很 小 时 ，f(x) POE Be ERRE ENEE. FT ZENE TAR BRA 标 
Æ (standard deviation )。 
HHE (covariance ) 在 某 种 意义 上 给 出 了 两 个 变量 线性 相关 性 的 强度 以 及 这 些 
变量 的 尺度 : 





























Cov( f(x), g(y)) = EL (2) — El) (oy) — Elgy)))I- (3.13) 
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协 方差 的 绝对 值 如 果 很 大 则 意味 着 变量 值 变 化 很 大 并 且 它 们 同时 距离 各 自 的 均值 很 
远 。 如 果 协 方差 是 正 的 ， 那 么 两 个 变量 都 倾向 于 同时 取得 相对 较 大 的 值 。 如 果 协 方 
差 是 负 的 ， 那 么 其 中 一 个 变量 倾向 于 取得 相对 较 大 的 值 的 同时 ， 另 一 个 变量 倾向 于 
取得 相对 较 小 的 值 , 反之 亦 然 。 其 他 的 衡量 指标 如 相关 系数 (correlation ) 将 每 个 变 
量 的 贡献 归 一 化 ， 为 了 只 衡量 变量 的 相关 性 而 不 受 各 个 变量 尺度 大 小 的 影响 。 

协 方差 和 相关 性 是 有 联系 的 ， 但 实际 上 不 同 的 概念 。 它 们 是 有 联系 的 ， 因 为 两 
个 变量 如 果 相 互 独立 那么 它们 的 协 方差 为 零 ， 如 果 两 个 变量 的 协 方差 不 为 零 那 么 它 
们 一 定 是 相关 的 。 然 而 ， 独 立 性 又 是 和 协 方差 完全 不 同 的 性 质 。 两 个 变量 如 果 协 方 
差 为 零 , 它们 之 间 一 定 没 有 线性 关系 。 独 立 性 是 比 零 协 方差 的 要 求 更 强 ， 因 为 独立 性 
还 排除 了 非 线性 的 关系 。 两 个 变量 相互 依赖 但 是 具有 零 协 方差 是 可 能 的 。 例 如 ， 假 
设 我 们 首先 从 区 间 [—1, 1) 上 的 均匀 分 布 中 采样 出 一 个 实数 z。 然 后 我 们 对 一 个 随机 
变量 s 进行 采样 。s 以 3 的 概率 值 为 1， 否 则 为 -1。 我 们 可 以 通过 令 y = sz 来 生成 
一 个 随机 变量 yo WA, x 和 y 不 是 相互 独立 的 ， 因 为 x 完全 决定 了 y 的 尺度 。 然 
而 ，Cov(z,y) = 0。 

随机 向 量 xe R” 的 协 方差 矩阵 (covariance matrix ) 是 一 个 n x n 的 矩阵 ， 并 
日 满足 

















Cov(X)i,; = Cov(xi, x;). (3.14) 


协 方差 矩阵 的 对 角 元 是 方差 : 


Cov(x;, xi) = Var(x;). (3.15) 


3.9 ”常用 概率 分 布 


许多 简单 的 概率 分 布 在 机 器 学 习 的 众多 领域 中 都 是 有 用 的 。 
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3.9.1 Bernoulli 分 布 


Bernoulli 分 布 (Bernoulli distribution ) 是 单个 二 值 随机 变量 的 分 布 。 它 由 单 
个 参数 we [0,1] 控制 ，% 给 出 了 随机 变量 等 于 1 的 概率 。 它 具有 如 下 的 一 些 性 质 : 

















P(x=1l=¢ (3.16) 
P(x=0)=1-¢ (3.17) 
P(x=2)=¢"(1- 9)" (3.18) 
Elx] = ¢ (3.19) 
Vary(x) = o(1 = ¢) (3.20) 


3.9.2 Multinoulli 分 布 


Multinoulli 分 布 (multinoulli distribution ) 或 者 范畴 分 布 ( categorical dis- 
tribution ) 是 指 在 具有 无 个 不 同 状态 的 单个 离散 型 随机 变量 上 的 分 布 ， 其 中 是 一 
个 有 限 值 。? Multinoulli 分 布 由 向 量 p © [0, 1]*-1 参数 化 ， 其 中 每 一 个 分 量 p; 表示 
第 i 个 状态 的 概率 。 最 后 的 第 个 状态 的 概率 可 以 通过 1 一 1'p 给 出 。 注 意 我 们 必 
须 限制 1.p < 1。Multinoulli 分 布 经 常用 来 表示 对 象 分 类 的 分 布 ， 所 以 我 们 很 少 假 
设 状态 工具 有 数值 1 之 类 的 。 因 此 ,我 们 通常 不 需要 去 计算 Multinoulli 分 布 的 随机 
变量 的 期 望 和 方差 。 

Bernoulli 分 布 和 Multinoulli 分 布 足够 用 来 描述 在 它们 领域 内 的 任意 分 布 。 它 们 
能 够 描述 这 些 分 布 ， 不 是 因为 它们 特别 强大 ， 而 是 因为 它们 的 领域 很 简单 ; 它们 可 
以 对 那些 ， 能 人 够 将 所 有 的 状态 进行 枚 举 的 离散 型 随机 变量 进行 建 模 。 当 处 理 的 是 连 
续 型 随机 变量 时 ， 会 有 不 可 数 无 限 多 的 状态 ， 所 以 任何 通过 少量 参数 描述 的 概率 分 
布 都 必须 在 分 布 上 加 以 严格 的 限 币 





i 


o 





2“multinoulli” 这 个 术语 是 最 近 被 Gustavo Lacerdo 发 明 、 被 Murphy (2012) 推广 的 。Multinoulli 分 布 是 多 
项 式 分 布 (multinomial distribution ) 的 一 个 特例 。 多 项 式 分 布 是 {0,...， n}? 中 的 向 量 的 分 布 ， 用 于 表示 当 
对 Multinoulli 分 布 采样 n 次 时 个 类 中 的 每 一 个 被 访问 的 次 数 。 很 多 文章 使 用 “多 项 式 分 布 ” 而 实际 上 说 的 
是 Multinoulli 分 布 ， 但 是 他 们 并 没有 说 是 对 n = 1 的 情况 ， 这 点 需要 注意 。 
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3.9.3 ”高 斯 分 布 


实数 上 最 常用 的 分 布 就 是 正 态 分 布 (normal distribution ) ， 也 称 为 高 斯 分 布 


( Gaussian distribution ): 


N (a; 1,07) = [=e ( 53 (x w?) . (3.21) 


图 3.1 画 出 了 正 态 分 布 的 概率 密度 函数 。 
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图 3.1: TEA AR. TEAS N (x;y, o?) 呈现 经 典 的 “ 钟 形 曲线 ”的 形状 ， 其 中 中 心 峰 的 x 坐标 
由 给 出 ， 峰 的 宽度 受 o 控制 。 在 这 个 示例 中 ， 我 们 展示 的 是 标准 正 态 分 布 (standard normal 
distribution )， 其 中 u = 0,o = 1。 

















正 态 分 布 由 两 个 参数 控制 ，AE R 和 o € (0,co)。 参 数 /给 出 了 中 心 峰 值 的 坐 
标 ， 这 也 是 分 布 的 均值 : Ek] = 1。 分 布 的 标准 差 用 o 表示 ， 方 差 用 o? 表示 。 

当 我 们 要 对 概率 密度 函数 求 值 时 ， 我 们 需要 对 o 平方 并 且 取 倒数 。 当 我 们 需要 
经 常 对 不 同 参数 下 的 概率 密度 函数 求 值 时 ， 一 种 更 高 效 的 参数 化 分 布 的 万 式 是 使 用 
参数 6 e (0, 00)， 来 控制 分 布 的 精度 (precision ) (或 方差 的 倒数 ): 

















N (a; u, B-*) = em (38-1?) (3.22) 


采用 正 态 分 布 在 很 多 应 用 中 都 是 一 个 明智 的 选择 。 当 我 们 由 于 缺乏 关于 某 个 实 
数 上 分 布 的 先 验 知识 而 不 知道 该 选择 怎样 的 形式 时 ， 正 态 分 布 是 默认 的 比较 好 的 选 
择 ， 其 中 有 两 个 原因 。 
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第 一 ， 我 们 想 要 建 模 的 很 多 分 布 的 真实 情况 是 比较 接近 正 态 分 布 的 。 中 心 极限 
定理 (central limit theorem ) 说 明 很 多 独立 随机 变量 的 和 近似 服从 正 态 分 布 。 这 意 
味 着 在 实际 中 ， 很 多 复杂 系统 都 可 以 被 成 功 地 建 模 成 正 态 分 布 的 噪声 ， 即 使 系统 可 
以 被 分 解 成 一 些 更 结构 化 的 部 分 。 

第 二 ， 在 具有 相同 方差 的 所 有 可 能 的 概率 分 布 中 ， 正 态 分布 在 实数 上 具有 最 大 
的 不 确定 性 。 因 此 ， 我 们 可 以 认为 正 态 分 布 是 对 模型 加 入 的 先 验 知 识 量 最 少 的 分 布 。 
充分 利用 和 证 明 这 个 想法 需要 更 多 的 数学 工具 ， 我 们 推迟 到 第 19.4.2 节 进行 讲解 。 

正 态 分 布 可 以 推广 到 R" 空间 ， 这 种 情况 下 被 称 为 多 维 正 态 分 布 (multivariate 
normal distribution )。 它 的 参数 是 一 个 正定 对 称 和 矩阵 D: 





Næm) = oe ENE e-m) 8.29) 


参数 /仍然 表示 分 布 的 均值 ， 只 不 过 现在 是 向 量 值 。 参 数 a 给 出 了 分 布 的 协 
方差 矩阵 。 和 单 变量 的 情况 类 似 ， 当 我 们 希望 对 很 多 不 同 参 数 下 的 概率 密度 函数 多 
次 求 值 时 ， 协 方差 矩阵 并 不 是 一 个 很 高 效 的 参数 化 分 布 的 方式 ， 因 为 对 概率 密度 函 
数 求 值 时 需要 对 D 求 逆 。 我 们 可 以 使 用 一 个 精度 矩阵 〈 precision matrix ) 6 进行 蔡 
代 : 





Neu) en (3 nye). BA 


我 们 常常 把 协 方 差 矩 阵 固定 成 一 个 对 角 阵 。 一 个 更 简单 的 版 本 是 各 向 同性 
(isotropic ) 高 斯 分 布 ， 它 的 协 方差 和 矩阵 是 一 个 标量 乘 以 单位 阵 。 





3.9.4 ”指数 分 布 和 和 Laplace 分 布 





在 深度 学 习 中 ， 我 们 经 常会 需要 一 个 在 x = 0 点 处 取得 边界 点 (sharp point) 的 
分 布 。 为 了 实现 这 一 目的 ， 我们 可 以 使 用 指数 分 布 (exponential distribution ): 
p(x; A) = 和 1Lz>o exp(—Az). (3.25) 
指数 分 布 使 用 指示 函数 (indicator function)1z>o 来 使 得 当 z 取 负 值 时 的 概率 为 零 。 


一 个 联系 紧密 的 概率 分 布 是 Laplace 分 布 (Laplace distribution )， 它 允许 我 们 
在 任意 一 点 u 处 设置 概率 质量 的 峰值 





1 = 
Laplace(a; u, y) = Dy exp ( 2 HM) : (3.26) 
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3.9.5 Dirac 分 布 和 经 验 分 布 


在 一 些 情况 下 ， 我 们 希望 概率 分 布 中 的 所 有 质量 都 集中 在 一 个 点 上 。 这 可 以 通 

过 Dirac delta 函数 ( Dirac delta function ) 5(x) 定义 概率 密度 函数 来 实现 : 
p(z) = 6(z — u). (3.27) 

Dirac delta 函数 被 定义 成 在 除了 0 以 外 的 所 有 点 的 值 都 为 0， 但 是 积分 为 1。Dirac 
delta 函数 不 像 普通 函数 一 样 对 x 的 每 一 个 值 都 有 一 个 实数 值 的 输出 ， 它 是 一 种 不 同 
类 型 的 数学 对 象 ， 被 称 为 广义 函数 (generalized function )， 广 义 函 数 是 依据 积分 性 
质 定义 的 数学 对 象 。 我 们 可 以 把 Dirac delta 函数 想 成 一 系列 函数 的 极限 点 ， 这 一 系 
列 函 数 把 除 0 以 外 的 所 有 点 的 概率 密度 越 变 越 小 。 

通过 把 p(z) 定义 成 6 KAEH -u 个 单位 ,我们 得 到 了 一 个 在 r = 处 具有 
无 限 窜 也 无 限 高 的 峰值 的 概率 质量 。 

Dirac 分 布 经 常 作为 经 验 分 布 (empirical distribution ) 的 一 个 组 成 部 分 出 现 : 





i ; 
ji( = — N` 6(a— z® 3.28 
P(x) A2 tor”) (3.28) 
经 验 分 布 将 概率 密度 RA mm 个 点 zt ol 中 的 每 一 个 ， 这 些 点 是 给 定 的 





数据 集 或 者 采样 的 集合 。 只 有 在 定义 连续 型 随机 变量 的 经 验 分 布 时 ，Dirac delta PK 
数 才 是 必要 的 。 对 于 离散 型 随机 变量 ， 情 况 更 加 简单 : 经 验 分 布 可 以 被 定义 成 一 
个 Multinoulli 分 布 ， 对 于 每 一 个 可 能 的 输入 ， 其 概率 可 以 简单 地 设 为 在 训练 集 上 那 
个 输入 值 的 经验 频率 (empirical frequency ). 

当 我 们 在 训练 集 上 训练 模型 时 ， 我 们 可 以 认为 从 这 个 训练 集 上 得 到 的 经 验 分 
布 指 明了 我 们 采样 来 源 的 分 布 。 关 于 经 验 分 布 另外 一 种 重要 的 观点 是 ， 它 是 训练 数 
据 的 似 然 最 大 的 那个 概率 密度 函数 ( 见 第 5.5 节 )。 


3.9.6 “分 布 的 混合 


通过 组 合 一 些 简单 的 概率 分 布 来 定义 新 的 概率 分 布 也 是 很 常见 的 。 一 种 通用 的 组 
合 方法 是 构造 混合 分 布 (mixture distribution )。 混 合 分 布 由 一 些 组 件 (component) 
分 布 构成 。 每 次 实验 ， 样 本 是 由 哪个 组 件 分 布 产 生 的 取决 于 从 一 个 Multinoulli 分 
布 中 采样 的 结果 : 





P(x) = > P(c =i)P(x|c =i), (3.29) 
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这 里 P(c) 是 对 各 组 件 的 一 个 Multinoulli 分 布 。 

我 们 已 经 看 过 一 个 混合 分 布 的 例子 了 : 实 值 变量 的 经 验 分 布 对 于 每 一 个 训练 实 
例 来 说 ， 就 是 以 Dirac 分 布 为 组 件 的 混合 分 布 。 

混合 模型 是 组 合 简 单 概率 分 布 来 生成 更 丰富 的 分 布 的 一 种 简单 策略 。 在 第 十 
六 章 中 ， 我 们 更 加 详细 地 探讨 从 简单 概率 分 布 构建 复杂 模型 的 技术 。 

混合 模型 使 我 们 能 够 一 曾 以 后 会 用 到 的 一 个 非常 重要 的 概念 一 一 潜 变 量 
(latent variable )。 潜 变量 是 我 们 不 能 直接 观测 到 的 随机 变量 。 混 合 模 型 的 组 件 标 
识 变 量 c 就 是 其 中 一 个 例子 。 潜 变量 在 联合 分 布 中 可 能 和 x 有 关 ， 在 这 种 情况 下 ， 
P(x,c) = P(x | c)P(c)。 潜 变量 的 分 布 Pe) 以 及 关联 潜 变 量 和 观测 变量 的 条 件 分 布 
P(x|c), 共同 决定 了 分 布 P(x) 的 形状 ， 尽 管 描述 P(x) 时 可 能 并 不 需要 洪 变 量 。 游 
变量 将 在 第 16.5 节 中 深入 讨论 。 

一 个 非常 强大 且 篆 见 的 混合 模型 是 高 斯 混合 模型 ( Gaussian Mixture Model ), 
它 的 组 件 p(x | c = i) 是 高 斯 分 布 。 每 个 组 件 都 有 各 自 的 参数 ,均值 pO 和 协 方差 矩 
阵 下 。 有 一 些 混合 可 以 有 更 多 的 限制 。 例如, 协 方差 矩阵 可 以 通过 SO = 于 ,Vi 的 
形式 在 组 件 之 间 共 享 参数 。 和 单个 高 斯 分 布 一 样 ， 高 斯 混合 模型 有 时 会 限制 每 个 组 
件 的 协 方差 矩阵 为 对 角 的 或 者 各 向 同性 的 (标量 乘 以 单位 矩阵 )。 

除了 均值 和 协 方差 以 外 ， 高 斯 混合 模型 的 参数 指明 了 给 每 个 组 件 i 的 先 验 概率 
(prior probability) a; = P(c = 让 。“ 先 验 ” 一 词 表 明了 在 观测 到 x 之 前 传递 给 模 
型 关于 c 的 信念 。 作 为 对 比 ，P(c | x) 是 后 验 概率 (posterior probability )， 因 为 它 
是 在 观测 到 x 之 后 进行 计算 的 。 高 斯 混合 模型 是 概率 密度 的 万 能 近似 器 ( universal 
approximator ), 在 这 种 意义 下 ， 任 何平 滑 的 概率 密度 都 可 以 用 具有 足够 多 组 件 的 高 
斯 混合 模型 以 任意 精度 来 逼近 。 

图 3.2 演 示 了 某 个 高 斯 混合 模型 生成 的 样本 。 
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图 3.2: 来 自 高 斯 混合 模型 的 样本 。 在 这 个 示例 中 ， 有 三 个 组 件 。 从 左 到 右 ， 第 一 个 组 件 具 有 各 向 
同性 的 协 方 差 矩阵 ， 这 意味 着 它 在 每 个 方向 上 具有 相同 的 方差 。 第 二 个 组 件 具有 对 角 的 协 方差 矩 
阵 ， 这 意味 着 它 可 以 沿 着 每 个 轴 的 对 齐 方向 单独 控制 方差 。 该 示例 中 ， 沿 着 zz 轴 的 方差 要 比 沿 着 
21 轴 的 方差 大 。 第 三 个 组 件 具 有 满 秩 的 协 方差 矩阵 ， 使 它 能 够 沿 着 任意 基 的 方向 单独 地 控制 方差 。 



























































3.10 ”常用 函数 的 有 用 性 质 


某 些 函数 在 处 理 概 率 分 布 时 经 常会 出 现 ， 尤 其 是 深度 学 习 的 模型 中 用 到 的 概率 
分 布 。 
其 中 一 个 函数 是 logistic sigmoid 函数 : 


1 
~ 1+exp(—2)’ 


logistic sigmoid 国 数 通常 用 来 产生 Bernoulli 分 布 中 的 参数 5， 因 为 它 的 范围 是 
(0,1), 处 在 $ 的 有 效 取 值 范围 内 。 图 3.3 给 出 了 sigmoid 函数 的 图 示 。sigmoid 函数 
在 变量 取 绝 对 值 非常 大 的 正 值 或 负 值 时 会 出 现 饱 和 (saturate ) 现象 ,意味 着 函数 会 
变 得 很 平 ， 并 且 对 输入 的 微小 改变 会 变 得 不 敏感 。 

另外 一 个 经 常 遇 到 的 函数 是 softplus 函数 ( softplus function ) (Dugas et al., 
2001a): 


a(x) (3.30) 


¢(z) = log(1 + exp(z)). (3.31) 


softplus 函数 可 以 用 来 产生 正 态 分 布 的 6 和 c 参数 ， 因 为 它 的 范围 是 (0,co)。 当 处 
HEA sigmoid 函数 的 表达 式 时 它 也 经 常 出 现 。softplus 函数 名 来 源 于 它 是 男 外 一 个 
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一 5 0 5 


图 3.3: logistic sigmoid ei. 


函数 的 平滑 ( 或 “软化 ”) 形式 ， 这 个 函数 是 


at = max(0, x). (3.32) 


图 3.4 给 出 了 softplus 函数 的 图 示 。 


C(x) 


10 


一 5 0 5 


图 3.4: softplus 函数 。 
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下 面 一 些 性 质 非 常 有 用 ， 你 可 能 要 记 下 来 : 








ae) = mol) eal B39 

Z s(a) = o(2)(1~o(2)) (3.34) 
1—o(x) = o(—2) 3.35) 

log o(2) = -¢(—a) (3.36) 
Lele) = o(a) (3.37) 

Vax € (0,1),071(2) = tos (42) (3.38) 
Vx > 0,C-1(z) = log(exp(z) — 1) (3.39) 
ote) =f otav (3.40) 
CWC(-2) =2 (3.41) 


PRP o 1 (ar) 在 统计 学 中 被 称 为 分 对 数 (logit )， 但 这 个 函数 在 机 需 学 习 中 很 少 用 到 。 

式 (3.41) 为 函数 名 “softplus” 提 供 了 其 他 的 正当 理由 。softplus 函数 被 设计 成 正 
部 函数 (positive part function ) 的 平滑 版 本 ， 这 个 正 部 函数 是 指 xt = max{0, x}。 
与 正 部 函数 相对 的 是 负 部 函数 (negative part function ) z- = max{0, 一 +}。 为 了 获 
得 类 似 负 部 函数 的 一 个 平滑 函数 ， 我 们 可 以 使 用 5C(-z)。 就 像 z 可 以 用 它 的 正 部 和 
负 部 通过 等 式 ot — r = 2 恢复 一 样 ， 我 们 也 可 以 用 同样 的 方式 对 C(x) 和 (一 z) 
进行 操作 ， 就 像 式 (3.41) 中 那样 。 





3.11” 贝 叶 斯 规则 
我 们 经 常会 需要 在 已 知 P(y |x) 时 计算 P(x |y) ISA, WRIA AE P(x), 
我 们 可 以 用 贝 叶 斯 规则 ( Bayes’ rule ) 来 实现 这 一 目的 : 
P(x)P(y | x) 
P(y) 
注意 到 P(y) 出 现在 上 面 的 公式 中 ， 它 通常 使 用 P(y) = 0, Ply | 2) P(x) 来 计算 ， 
所 以 我 们 并 不 需要 事先 知道 P(y) 的 信息 。 


P(x|y) = (3.42) 
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贝 叶 斯 规则 可 以 从 条 件 概 率 的 定义 直接 推导 得 出 , 但 我 们 最 好 记 住 这 个 公式 的 名 
F, 因为 很 多 文献 通过 名 字 来 引用 这 个 公式 。 这 个 公式 是 以 Reverend Thomas Bayes 
来 命名 的 , 他 是 第 一 个 发 现 这 个 公式 特例 的 人 。 这 里 介绍 的 一 般 形式 由 Pierre-Simon 
Laplace 独立 发 现 。 


3.12 ”连续 型 变量 的 技术 细节 


连续 型 随机 变量 和 概率 密度 函数 的 深入 理解 需要 用 到 数学 分 支 测 度 论 ( measure 
theory ) 的 相关 内 容 来 扩展 概率 论 。 测 度 论 超出 了 本 书 的 范畴 ,但 我 们 可 以 简要 勾勒 
一 些 测度 论 用 来 解决 的 问题 。 

在 第 3.3.2 节 中 ， 我 们 已 经 看 到 连续 型 向 量 值 随机 变量 x 落 在 某 个 集合 S 中 的 
概率 是 通过 p(x) 对 集合 S 积分 得 到 的 。 对 于 集合 S 的 一 些 选 择 可 能 会 引起 悖 论 。 例 
如 ， 构 造 两 个 集合 Sı Fl S2 使 得 plx € S;) | plx € S2) > 1J H. S: NS = 是 可 能 
的 。 这 些 集 合 通常 是 大 量 使 用 了 实数 的 无 限 精 度 来 构造 的 ， 例 如 通过 构造 分 形 形 状 
(fractal-shaped) 的 集合 或 者 是 通过 有 理 数 相关 集合 的 变换 定义 的 集合 。? 测度 论 的 
一 个 重要 贡献 就 是 提供 了 一 些 集合 的 特征 使 得 我 们 在 计算 概率 时 不 会 遇 到 悖 论 。 在 
本 书 中 ， 我 们 只 对 相对 简单 的 集合 进行 积分 ， 所 以 测度 论 的 这 个 方面 不 会 成 为 一 个 
相关 考虑 。 

对 于 我 们 的 目的 , 测度 论 更 多 的 是 用 来 描述 那些 适用 于 RR* 上 的 大 多 数 点 ， 却 不 
适用 于 一 些 边界 情况 的 定理 。 测 度 论 提供 了 一 种 严格 的 方式 来 描述 那些 非常 微小 的 
点 集 。 这 种 集合 被 称 为 “ 零 测度 (measure zero) ”的 。 我 们 不 会 在 本 书 中 给 出 这 个 
概念 的 正式 定义 。 然 而 ， 直 观 地 理解 这 个 概念 是 有 用 的 ， 我 们 可 以 认为 零 测度 集 在 
我 们 的 度量 空间 中 不 占有 任何 的 体积 。 例 如 ,在 R 空间 中 ， 一 条 直线 的 测度 为 零 ， 
而 填充 的 多 边 形 具有 正 的 测度 。 类 似 的 ， 一 个 单独 的 点 的 测度 为 零 。 可 数 多 个 零 测 
度 集 的 并 仍然 是 零 测 度 的 (所 以 所 有 有 理 数 构成 的 集合 测度 为 零 )。 

另外 一 个 有 用 的 测度 论 中 的 术语 是 “几乎 处 处 (almost everywhere ) ”。 某 个 性 
质 如 果 是 几乎 处 处 都 成 立 的 ， 那 么 它 在 整个 空间 中 除了 一 个 测度 为 零 的 集合 以 外 都 
是 成 立 的 。 因 为 这 些 例外 只 在 空间 中 占有 极其 微小 的 量 ， 它 们 在 多 数 应 用 中 都 可 以 
被 放心 地 忽略 。 概 率 论 中 的 一 些 重要 结果 对 于 离散 值 成 立 但 对 于 连续 值 只 能 是 “ 几 
平 处 处 ”成 立 。 

3Banach-Tarski 定理 给 出 了 这 类 集合 的 一 个 有 趣 的 例子 。 译 者 注 : 我 们 这 里 把 “the set of rational numbers” 翻 
译 成 “有理数 相关 和 集合 *"， 理 解 为 “一 些 有 理 数 组 成 的 集合 ”"， 如 果 直 接 用 后 面 的 翻译 读 起 来 会 比较 描 口 。 
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连续 型 随机 变量 的 男 一 技术 细节 ， 涉 及 到 处 理 那 种 相互 之 间 有 确定 性 函数 关系 
的 连续 型 变量 。 假 设 我 们 有 两 个 随机 变量 x 和 y 满足 y= g(a), HP 9 是 可 逆 的 、 
连续 可 微 的 函数 。 可 能 有 人 会 想 py(y) = pe(g !( 切 )。 但 实际 上 这 并 不 对 。 


举 一 个 简单 的 例子 ， 假 设 我 们 有 两 个 标量 值 随机 变量 x 和 y， 并 且 满 足 y = % 
以 及 x~ U(0,1)。 如 果 我 们 使 用 Poly ) =px(2y), ABA py 除了 区 间 [0, 3] 以 外 都 为 
0， 并 且 在 这 个 区 间 上 的 值 为 1。 这 意味 着 


f mw = A (3.43) 


而 这 违背 了 概率 密度 的 定义 (积分 为 1)。 这 个 常见 错误 之 所 以 错 是 因为 它 没有 考虑 
到 引入 函数 9 后 造成 的 空间 变形 。 回 忆 一 下 ，z 落 在 无 穷 小 的 体积 为 6z 的 区 域内 的 
概率 为 p(z)6z。 因 为 g 可 能 会 扩展 或 者 压缩 空间 , 在 z 空间 内 的 包围 着 z 的 无 穷 小 
体积 在 y 空间 中 可 能 有 不 同 的 体积 。 

为 了 看 出 如 何 改 正 这 个 问题 ， 我 们 回 到 标量 值 的 情况 。 我 们 需要 保持 下 面 这 个 
性 质 : 














|pv(9(z))ay| = |p2(x)dz]. (3.44) 
求解 上 式 ， 我 们 得 到 ; 

py(y) = Po(g*(y)) oa (3.45) 
或 者 等 价 地 ， ; 

pela) =pl) |S) (3.46) 





在 高 维 空 和 
矩阵 的 每 个 元 素 为 Jij = guo WIE, TKANE z 和 y, 


pala) = plola) faet (2). (347) 








信息 论 是 应 用 数学 的 一 个 分 支 ， 主 要 研究 的 是 对 一 个 信号 包含 信息 的 多 少 进行 
量化 。 它 最 初 被 发 明 是 用 来 研究 在 一 个 含有 噪声 的 信道 上 用 离散 的 字母 表 来 发 送 消 
息 ， 例 如 通过 无 线 电 传输 来 通信 。 在 这 种 情况 下 ， 信 息 论 告诉 我 们 如 何 设计 最 优 编 
码 ， 以 及 计算 从 一 个 特定 的 概率 分 布 上 采样 得 到 、 使 用 多 种 不 同 编码 机 制 的 消息 的 
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期 望 长 度 。 在 机 带 学 习 中 ， 我 们 也 可 以 把 信息 论 应 用 在 连续 型 变量 上 ， 而 信息 论 中 
一 些 消息 长 度 的 解释 不 怎么 使 用 ,信息论 是 电子 工程 和 计算 机 科学 中 许多 领域 的 
基础 。 在 本 书 中 ,我 们 主要 使 用 信息 论 的 一 些 关键 思想 来 描述 概率 分 布 或 者 量化 概 
率 分 布 之 间 的 相似 性 。 有 关 信 息 论 的 更 多 细节 ， 参 见 Cover and Thomas (2006) 或 
者 MacKay (2003)。 

言 息 论 的 基本 想法 是 一 个 不 太 可 能 的 事件 居然 发 生 了 ， 要 比 一 个 非常 可 能 的 事 
件 发 生 ， 能 提供 更 多 的 信息 。 消 息 说 :“ 今 天 早上 太阳 升 起 ”信息 量 是 如 此 之 少 以 至 
于 没有 必要 发 送 ， 但 一 条 消息 说 :“ 今 天 早上 有 日 食 ” 信息 量 就 很 丰富 。 

我 们 想 要 通过 这 种 基本 想法 来 量化 信息 。 特 别 地 ， 














。 非常 可 能 发 生 的 事件 信息 量 要 比较 少 ， 并 且 极 端 情况 下 ， 确 保 能 够 发 生 的 事件 
应 该 没有 信息 量 。 


。 较 不 可 能 发 生 的 事件 具有 更 高 的 信息 量 。 


。 独立 事件 应 具有 增 量 的 信息 。 例 如 ， 投 掷 的 硬币 两 次 正面 朝 上 传递 的 信息 量 ， 
应 该 是 投掷 一 次 硬币 正面 朝 上 的 信息 量 的 两 倍 。 





为 了 满足 上 述 三 个 性 质 ， 我 们 定义 一 个 事件 x = x 的 自信 息 (self-information ) 

为 

I(x) = — log P(x). (3.48) 
在 本 书 中 ， 我 们 总 是 用 log 来 表示 自然 对 数 ， 其 底数 为 e。 因 此 我 们 定义 的 I(x) 单 
位 是 奈 特 (nats )。 一 奈 特 是 以 : 的 概率 观测 到 一 个 事件 时 获得 的 信息 量 。 其 他 的 材 
料 中 使 用 底数 为 2 的 对 数 ， 单 位 是 比特 (bit) 或 者 香农 ( shannons ); 通过 比特 度 
量 的 信息 只 是 通过 奈 特 度量 信息 的 第 数 倍 。 

当 x 是 连续 的 ， 我 们 使 用 类 似 的 关于 信息 的 定义 ,但 有 些 来 源 于 离散 形式 的 性 
质 就 丢失 了 。 例如 , 一 个 具有 单位 密度 的 事件 信息 量 仍然 为 0, 但 是 不 能 保证 它 一 定 
发 生 。 

自信 息 只 处 理 单个 的 输出 。 我 们 可 以 用 香农 (Shannon entropy ) 来 对 整个 概 
率 分 布 中 的 不 确定 性 总 量 进行 量化 : 


A(x) = E,.p[I(z)] = —Ex~ plog P(x)], (3.49) 


也 记 作 H(P) RAZ, 一 个 分 布 的 香农 炉 是 指 遵 循 这 个 分 布 的 事件 所 产生 的 期 望 信 
息 总 量 。 它 给 出 了 对 依据 概率 分 布 P 生成 的 符号 进行 编码 所 需 的 比特 数 在 平均 意义 
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上 的 下 界 ( 当 对 数 底数 不 是 2 时 , 单位 将 有 所 不 同 )。 那 些 接近 确定 性 的 分 布 (输出 几 
乎 可 以 确定 ) AA BURA; 那些 接近 均匀 分 布 的 概率 分 布 具 有 较 高 的 炉 。 图 3.5 给 
出 了 一 个 说 明 。 当 x 是 连续 的 ， 香 农 炉 被 称 为 PSI] (differential entropy )。 
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图 3.5: {ABODE eR. AEH TE Ber A aE PEE OPA a Un] A BIR AE, TT HE 
BEIJA ANY As Ee A EA. ORE p， 表 示 二 值 随机 变量 等 于 1 TER A 
由 (p 一 1)log(1 一 p) 一 plogp 给 出 。 当 pp 接近 0 时 , 分布 几乎 是 确定 的 ， 因 为 随机 变量 几乎 总 是 
0. 4p 接近 1 时 , 分 布 也 几乎 是 确定 的 ， 因 为 随机 变量 几乎 总 是 1。 当 p= 0.5 f, MERKKI, 
因为 分 布 在 两 个 结果 (0 和 1) 上 是 均匀 的 。 












































如 果 我 们 对 于 同一 个 随机 变量 x 有 两 个 单独 的 概率 分 布 P(x) 和 Q(x), FETAL 
以 使 用 KL 散 度 (Kullback-Leibler (KL) divergence ) 来 衡量 这 两 个 分 布 的 差异 : 


a = E,.pllog P(x) —logQ(x)]. (3.50) 


在 离散 型 变量 的 情况 下 ，KL 散 度 衡量 的 是 ， 当 我 们 使 用 一 种 被 设计 成 能 够 使 
得 概率 分 布 Q 产生 的 消息 的 长 度 最 小 的 编码 ， 发 送 包 含 由 概率 分 布 已 产生 的 符号 
的 消息 时 ,所 需要 的 额外 信息 量 (如 果 我 们 使 用 底数 为 2 的 对 数 时 ,信息 量 用 比特 衡 
量 ， 但 在 机 噩 学 习 中 ,我们 通常 用 奈 特 和 自然 对 数 。) 

KL 散 度 有 很 多 有 用 的 性 质 ， 最 重要 的 是 它 是 非 负 的 。KL 散 度 为 0 当 且 仅 当 
P 和 Q 在 离散 型 变量 的 情况 下 是 相同 的 分 布 ， 或 者 在 连续 型 变量 的 情况 下 是 “几乎 
处 处 ”相同 的 。 因 为 KL 散 度 是 非 负 的 并 且 衡 量 的 是 两 个 分 布 之 间 的 差异 ， 它 经 常 
被 用 作 分 布 之 间 的 某 种 距离 。 然 而 ， 它 并 不 是 真 的 距离 因为 它 不 是 对 称 的 : 对 于 某 
He PHQ, Der(PIlQ) 关 DkrL(QIIP)。 这 种 非 对 称 性 意味 着 选择 Prr(PIIQ) 还 是 





























DkL(P|I|IQ) = Ex~p 区 
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DkL(QIIP) 影响 很 大 。 更 多 细节 可 以 看 图 3.6 。 


q* = argmin, DkL (pllg) q* = argmin, Dri (gllp) 


Probability Density 
Probability Density 























图 3.6: KL 散 度 是 不 对 称 的 。 假 设 我 们 有 一 个 分 布 p(z)， 并 且 和 希望 用 另 一 个 分 布 9(z) 来 近似 它 。 
我 们 可 以 选择 最 小 化 DkL (pllq) 或 最 小 化 PEr(dllm)。 为 了 说 明 每 种 选择 的 效果 ， 我 们 令 p 是 两 
个 高 斯 分 布 的 混合 ， 令 q 为 单个 高 斯 分 布 。 选 择 使 用 KL 散 度 的 肝 个 方向 是 取决 于 问题 的 。 一 些 
应 用 需要 这 个 近似 分 布 g 在 真实 分 布 p 放置 高 概率 的 所 有 地 方 都 放置 高 概率 ， 而 其 他 应 用 需要 这 
个 近似 分 布 q 在 真实 分 布 p 放置 低 概率 的 所 有 地 方 都 很 少 放置 高 概率 。KL 散 度 方向 的 选择 反映 
了 对 于 每 种 应 用 ， 优 先 考 虑 哪 一 种 选择 。( 左 ) 最 小 化 Dex (pl|l9) 的 效果 。 在 这 种 情况 下 ， 我 们 选 
择 一 个 q 使 得 它 在 p 具有 高 概率 的 地 方 具有 高 概率 。 当 p 具有 多 个 峰 时 ，g 选择 将 这 些 峰 模糊 到 
一 起 ， 以 便 将 高 概率 质量 放 到 所 有 峰 上 。( 右 ) 最 小 化 Drar (dllp) 的 效果 。 在 这 种 情况 下 ， 我 们 选 
择 一 个 q 使 得 它 在 p 具有 低 概率 的 地 方 具有 低 概率 。 当 p 具有 多 个 峰 并 且 这 些 峰 间隔 很 宽 时 ， 如 
该 图 所 示 ， 最 小 化 KL 散 度 会 选择 单个 峰 ， 以 避免 将 概率 质量 放置 在 p 的 多 个 峰之 间 的 低 概率 区 
域 中 。 这 里 , 我们 说 明 当 9 被 选择 成 强调 左边 峰 时 的 结果 。 我 们 也 可 以 通过 选择 右边 峰 来 得 到 KL 
散 度 相同 的 值 。 如 果 这 些 峰 没有 被 足够 强 的 低 概率 区 域 分 离 ， 那 么 KL 散 度 的 这 个 方向 仍然 可 能 
选择 模糊 这 些 峰 。 




















































































































































































































一 个 和 KL 散 度 密切 联系 的 量 是 交叉 精 (cross-entropy ) H(P,Q) = H(P) + 
Drr(PIIQ@)， 它 和 KL 散 度 很 像 但 是 缺少 左边 一 项 : 











H(P,Q) = —Ex~p log Q(z). (3.51) 





针对 Q Bey MEE IS Te Me KL 散 度 ， 因 为 Q 并 不 参与 被 省 略 的 那 一 项 。 


当 我 们 计算 这 些 量 时 ， 经 常会 遇 到 0log 0 这 个 表达 式 。 按 照 惯例 ， 在 信息 论 中 ， 
我 们 将 这 个 表达 式 人 处 理 为 lim, ,ozlogz = 0. 
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3.14 ”结构 化 概率 模型 


机 需 学 习 的 算法 经 常会 涉及 到 在 非常 多 的 随机 变量 上 的 概率 分 布 。 通 常 , 这 些 概 
率 分 布 涉及 到 的 直接 相互 作用 都 是 介 于 非常 少 的 变量 之 间 的 。 使 用 单个 函数 来 描述 
整个 联合 概率 分 布 是 非常 低 效 的 (无 论 是 计算 上 还 是 统计 上 )。 

我 们 可 以 把 概率 分 布 分 解 成 许多 因子 的 乘积 形式 ， 而 不 是 使 用 单一 的 函数 来 表 
示 概 率 分 布 。 例 如 , 假设 我 们 有 三 个 随机 变量 a,b 和 c, 并 且 a 影响 b 的 取 值 , b 影 
m c 的 取 值 ， 但 是 a 和 < 在 给 定 b 时 是 条 件 独立 的 。 我 们 可 以 把 全 部 三 个 变量 的 概 
率 分 布 重新 表示 为 两 个 变量 的 概率 分 布 的 连 乘 形式 : 


p(a, b,c) = p(a)p(b | a)p(c | b). (3.52) 











这 种 分 解 可 以 极 大 地 减少 用 来 描述 一 个 分 布 的 参数 数量 。 每 个 因子 使 用 的 参数 
数目 是 它 的 变量 数目 的 指数 倍 。 这 意味 着 ， 如 果 我 们 能 够 找到 一 种 使 每 个 因子 分 布 
具有 更 少 变量 的 分 解 方法 ， 我 们 就 能 极 大 地 降低 表示 联合 分 布 的 成 本 。 

我 们 可 以 用 图 来 描述 这 种 分 解 。 这 里 我 们 使 用 的 是 图 论 中 的 “图 ”的 概念 : 由 
一 些 可 以 通过 边 互 相连 接 的 顶点 的 集合 构成 。 当 我 们 用 图 来 表示 这 种 概率 分 布 的 分 
解 ， 我 们 把 它 称 为 结构 化 概率 模型 (structured probabilistic model) 或 者 图 模型 
(graphical model )。 


有 两 种 主要 的 结构 化 概率 模型 : 有 向 的 和 无 向 的 。 两 种 图 模型 都 使 用 图 9， 其 中 
图 的 每 个 节点 对 应 着 一 个 随机 变量 ,连接 两 个 随机 变量 的 边 意味 着 概率 分 布 可 以 表 
示 成 这 两 个 随机 变量 之 间 的 直接 作用 。 

有 向 (directed ) 模型 使 用 带 有 有 向 边 的 图 ， 它 们 用 条 件 概率 分 布 来 表示 分 解 ， 
就 像 上 面 的 例子 。 特 别 地 ， 有 向 模型 对 于 分 布 中 的 每 一 个 随机 变量 x, 都 包含 着 一 个 
影响 因子 ， 这 个 组 成 x; 条 件 概率 的 影响 因子 被 称 为 x; 的 父 节 点 ， 记 为 Pac (xi): 


p(x) = [ [pC | Pag (x). (3.53) 


2 








图 3.7 给 出 了 一 个 有 向 图 的 例子 以 及 它 表 示 的 概率 分 布 的 分 解 。 

无 向 (undirected ) 模型 使 用 带 有 无 向 边 的 图 ， 它 们 将 分 解 表 示 成 一 组 函数 ; 不 
像 有 向 模型 那样 ， 这 些 函 数 通常 不 是 任何 类 型 的 概率 分 布 。9 中 任何 满足 两 两 之 
间 有 边 连 接 的 顶点 的 集合 被 称 为 团 。 无 向 模型 中 的 每 个 团 CO 都 伴随 着 一 个 因子 
(CO)。 这 些 因 子 仅仅 是 函数 ， 并 不 是 概率 分 布 。 每 个 因子 的 输出 都 必须 是 非 负 
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图 3.7: 关于 随机 变量 a,b,c,d 和 e 的 有 向 图 模型 。 这 幅 图 对 应 的 概率 分 布 可 以 分 解 为 








pla,b, c,d,e) = p(a)p(b | a)p(c | a, b)p(d | b)p(e | c). (3.54) 





该 图 模型 使 我 们 能 够 快速 看 出 此 分 布 的 一 些 性 质 。 例 如 ，a 和 c 直接 相互 影响 , 但 a 和 e 只 有 通 
过 c 间接 相互 影响 。 





的 ,但 是 并 没有 像 概率 分 布 中 那样 要 求 因子 的 和 或 者 积分 为 1。 

随机 变量 的 联合 概率 与 所 有 这 些 因 子 的 乘积 成 比例 〈 proportional ) 一 一 意味 着 
因子 的 值 越 大 则 可 能 性 越 大 。 当 然 ， 不 能 保证 这 种 乘积 的 求 和 为 1。 所 以 我 们 需要 除 
以 一 个 归 一 化 常数 Z 来 得 到 归 一 化 的 概率 分 布 ， 归 一 化 常数 2 被 定义 为 $ 函数 乘 
积 的 所 有 状态 的 求 和 或 积分 。 概 率 分 布 为 : 





P(x) = - Ho (c®). (3.55) 


图 3.8 给 出 了 一 个 无 向 图 的 例子 以 及 它 表 示 的 概率 分 布 的 分 解 。 

请 记 住 ， 这 些 图 模型 表示 的 分 解 仪 仅 是 描述 概率 分 布 的 一 种 语言 。 它 们 不 是 互 
相 排 斥 的 概率 分 布 族 。 有 向 或 者 无 向 不 是 概率 分 布 的 特性 ; 它 是 概率 分 布 的 一 种 特 
殊 描 述 (description) 所 具有 的 特性 ， 而 任何 概率 分 布 都 可 以 用 这 两 种 方式 进行 描 


述 。 





在 本 书 第 一 部 分 和 第 二 部 分 中 ,我们 仅仅 将 结构 化 概率 模型 视 作 一 门 语言 ,来 
描述 不 同 的 机 器 学 习 算 法 选择 表示 的 直接 的 概率 关系 。 在 讨论 研究 课题 之 前 ， 读 者 
不 需要 更 深入 地 理解 结构 化 概率 模型 。 在 第 三 部 分 的 研究 课题 中 ， 我 们 将 更 为 详尽 
地 探讨 结构 化 概率 模型 。 

本 章 复习 了 概率 论 中 与 深度 学 习 最 为 相关 的 一 些 基 本 概念 。 我 们 还 剩 下 一 些 基 
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图 3.8: 关于 随机 变量 a,b,c,d Fle 的 无 向 图 模型 。 这 幅 图 对 应 的 概率 分 布 可 以 分 解 为 








pla, b,c, d,e) = #0 (a, b, c)9® (bd) (ce), (3.56) 





该 图 模型 使 我 们 能 够 快速 看 出 此 分 布 的 一 些 性 质 。 例 如 ，a 和 c 直接 相互 影响 , 但 a 和 e 只 有 通 
过 间接 相互 影响 。 





本 的 数学 工具 需要 讨论 : 数值 方法 。 
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机 噩 学 习 算 法 通常 需要 大 量 的 数值 计算 。 这 通常 是 指 通过 迭代 过 程 更 新 解 的 佑 
计 值 来 解决 数学 问题 的 算法 ， 而 不 是 通过 解析 过 程 推导 出 公式 来 提供 正确 解 的 方法 。 
常见 的 操作 包括 优化 ( 找到 最 小 化 或 最 大 化 了 消 数值 的 参数 ) 和 线性 方程 组 的 求解 。 
对 数字 计算 机 来 说 实数 无 法 在 有 限 内 存 下 精确 表示 ， 因 此 仪 仅 是 计算 涉及 实数 的 函 
数 也 是 困难 的 。 


4.1 Emi 


连续 数学 在 数字 计算 机 上 的 根本 困难 是 ， 我 们 需要 通过 有 限 数量 的 位 模式 来 表 
示 无 限 多 的 实数 。 这 意味 着 我 们 在 计算 机 中 表示 实数 时 ， 几 乎 总 会 引入 一 些 近 似 误 
差 。 在 许多 情况 下 ， 这 仅仅 是 售 人 误差 。 售 人 误差 会 导致 一 些 问题 ， 特 别 是 当 许多 
操作 复合 时 ， 即 使 是 理论 上 可 行 的 算法 ， 如 果 在 设计 时 没有 考虑 最 小 化 舍 人 误差 的 
累积 ， 在 实践 时 也 可 能 会 导致 算法 失效 。 

一 种 极 具 毁 灭 性 的 舍 人 误差 是 下 洪 ( underflow )。 当 接近 零 的 数 被 四 舍 五 人 为 
零 时 发 生 下 洪 。 许 多 函数 在 其 参数 为 零 而 不 是 一 个 很 小 的 正 数 时 才 会 表现 出 质 的 不 
同 。 例 如 ， 我 们 通常 要 避免 被 零 除 (一 些 软件 环境 将 在 这 种 情况 下 抛 出 异常 ， 有 些 
会 返回 一 个 非 数字 (not-a-number, NaN) 的 占 位 符 ) 或 避免 取 零 的 对 数 (这 通常 被 
视 为 -co， 进 一 步 的 算术 运算 会 使 其 变 成 非 数 字 )。 

另 一 个 极 具 破 坏 力 的 数值 错误 形式 是 上 洪 (overflow )。 当 大 量 级 的 数 被 近似 为 
oo 或 -co 时 发 生 上 洪 。 进 一 步 的 运算 通常 会 导致 这 些 无 限 值 变 为 非 数字 。 

必须 对 上 洪 和 下 洲 进 行 数值 稳定 的 一 个 例子 是 softmax 函数 (softmax func- 
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tion )。softmax KAA% HTE Multinoulli 分 布 相 关联 的 概率 ， 定 义 为 


exp(2;) 
=, a! (4.1) 


考虑 一 下 当 所 有 zx; 都 等 于 某 个 常数 c 时 会 发 生 什 么 。 从 理论 分 析 上 说 ， 我 们 可 以 发 
现 所 有 的 输出 都 应 该 为 二。 从 数值 计算 上 说 ， 当 c 量 级 很 大 时 , 这 可 能 不 会 发 生 。 如 
果 c 是 很 小 的 负数 ,exp(c) 就 会 下 游 。 这 意味 着 softmax 函数 的 分 母 会 变 成 0， 所 以 
最 后 的 结果 是 未 定义 的 。 当 c 是 非常 大 的 正 数 时 ，exp(c) 的 上 溢 再 次 导致 整个 表达 
式 未 定义 。 这 两 个 困难 能 通过 计算 softmax(z) 同时 解决 ， 其 中 z= z 一 max; zo f 
单 的 代数 计算 表明 ，softmax 解析 上 的 函数 值 不 会 因为 从 输入 向 量 减 去 或 加 上 标量 
而 改变 。 减 去 max; zi; 导致 exp 的 最 大 参数 为 0， 这 排除 了 上 溢 的 可 能 性 。 同 样 地 ， 
分 母 中 至 少 有 一 个 值 为 1 的 项 ， 这 就 排除 了 因 分 母 下 洪 而 导致 被 零 除 的 可 能 性 。 

还 有 一 个 小 问题 。 分 子 中 的 下 浇 仍 可 以 导致 整体 表达 式 被 计算 为 零 。 这 意味 着 ， 
如 果 我 们 在 计算 log softmax(z) 时 ， 先 计算 softmax 再 把 结果 传 给 log 函数 ， 会 错 
误 地 得 到 一 00。 相反 ， 我 们 必须 实现 一 个 单独 的 函数 ， 并 以 数值 稳定 的 方式 计算 
log softmax。 我 们 可 以 使 用 相同 的 技巧 来 稳定 log softmax PRA. 

在 大 多 数 情况 下 ， 我 们 没有 明确 地 对 本 书 描述 的 各 种 算法 所 涉及 的 数值 考虑 进 
行 详细 说 明 。 底 层 库 的 开发 者 在 实现 深度 学 习 算 法 时 应 该 牢记 数值 问题 。 本 书 的 大 
多 数 读 者 可 以 简单 地 依赖 保证 数值 稳定 的 底层 库 。 在 某 些 情况 下 ,我 们 有 可 能 在 实 
现 一 个 新 的 算法 时 自动 保持 数值 稳定 。 Theano (Bergstra et al., 2010a; Bastien et al., 
2012a) 就 是 这 样 软件 包 的 一 个 例子 ， 它 能 自动 检测 并 稳定 深度 学 习 中 许多 和 常见 的 数 
值 不 稳定 的 表达 式 。 





softmax(xz); = 














4.2 “病态 条 件 


条 件数 表征 函数 相对 于 输入 的 微小 变化 而 变化 的 快慢 程度 。 输 入 被 轻微 扰动 而 
迅速 改变 的 函数 对 于 科学 计算 来 说 可 能 是 有 问题 的 ， 因 为 输入 中 的 舍 人 误差 可 能 
致 输出 的 巨大 变化 。 

考虑 函数 f(z) = Ata. 4 A ERO” 具有 特征 值 分 解 时 ， 其 条 件数 为 











(4.2) 
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这 是 最 大 和 最 小 特征 值 的 模 之 比 !。 当 该 数 很 大 时 , 矩阵 求 道 对 输入 的 误差 特别 敏感 。 

这 种 敏感 性 是 和 矩阵 本 身 的 固有 特性 ， 而 不 是 矩阵 求 逆 期 间 舍 入 误 差 的 结果 。 即 
使 我 们 乘 以 完全 正确 的 矩阵 道 ， 病 态 条 件 的 矩阵 也 会 放大 预先 存在 的 误差 。 在 实践 
中 ， 该 错误 将 与 求 逆 过 程 本 身 的 数值 误差 进一步 复合 。 











4.3 ”基于 梯度 的 优化 方法 


大 多 数 深度 学 习 算 法 都 涉及 某 种 形式 的 优化 。 优 化 指 的 是 改变 z 以 最 小 化 或 最 
大 化 某 个 函数 f(x) 的 任务 。 我 们 通常 以 最 小 化 f(x) 指 代 大 多 数 最 优化 问题 。 最 大 
化 可 经 由 最 小 化 算法 最 小 化 — f(x) 来 实现 。 

我 们 把 要 最 小 化 或 最 大 化 的 函数 称 为 目标 函数 (objective function ) 或 准则 
(criterion )。 当 我 们 对 其 进行 最 小 化 时 ， 我 们 也 把 它 称 为 代价 函数 (cost function )、 
损失 函数 (loss function ) 或 误差 函数 (error function )。 虽 然 有 些 机 器 学 习 著 作 赋 
予 这 些 名 称 特殊 的 意义 ,但 在 这 本 书 中 我 们 交替 使 用 这 些 术 语 。 

我 们 通常 使 用 一 个 上 标 * 表示 最 小 化 或 最 大 化 函数 的 x 值 。 如 我 们 记 x* = 
argmin f(z). 

我 们 假设 读者 已 经 熟悉 微 积分 ， 这 里 简要 回顾 微 积分 概念 如 何 与 优化 联系 。 

假设 我 们 有 一 个 函数 y= 了 (),; 其 中 zz 和 yy 是 实数 ,这 个 函数 的 导数 ( derivative ) 
WA fic) 或 一。 导数 f(z) 代表 f(z) 在 点 x 处 的 斜率 。 换 句 话说 ， 它 表明 如 何 缩 
放 输 入 的 小 变化 才能 在 输出 获得 相应 的 变化 : f (ete) © f(x) + ef (s) 

因此 导数 对 于 最 小 化 一 个 函数 很 有 用 ， 因 为 它 告 诉 我 们 如 何 更 改 z 来 略微 地 改 
善 ys。 例如， 我 们 知道 对 于 足够 小 的 。 来 说 ，f(z 一 csign( 了 (2))) 是 比 f(x) 小 的 。 
此 我 们 可 以 将 z 往 导 数 的 反方 向 移动 一 小 步 来 减 小 f(z)。 这 种 技术 被 称 为 梯度 下 降 
( gradient descent ) (Cauchy, 1847)。 图 4.1 展示 了 一 个 例子 。 

当 f(z) = 0， 导 数 无 法 提供 往 哪个 方向 移动 的 信息 。 了 (zx) = 0 的 点 称 为 临界 
点 (critical point ) 或 驻 点 (stationary point )。 一 个 局 部 极 小 点 (local minimum ) 
意味 着 这 个 点 的 f(z) 小 于 所 有 邻近 点 ， 因 此 不 可 能 通过 移动 无 穷 小 的 步 长 来 减 小 
f(z)。 一 个 局 部 极 大 点 (local maximum) 意味 着 这 个 点 的 f(z) 大 于 所 有 邻近 点 ， 
此 不 可 能 通过 移动 无 穷 小 的 步 长 来 增 大 f(z)。 有 些 临 界 点 既 不 是 最 小 点 也 不 是 最 大 


' 译 者 注 : 与 通常 的 条 件数 定义 有 所 不 同 。 
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Global minimum at x = 0. 
Since f'(x) = 0, gradient 
descent halts here. 


For x < 0, we have f'(x) For x > 0, we have f'(x) > 
so we can decrease f b so we can decrease f by 
moving rightward. moving leftward. 

















图 4.1: 梯度 下 降 。 梯 度 下 降 算法 如 何 使 用 函数 导数 的 示意 图 ， 即 沿 着 函数 的 下 坡 方向 〈 导数 反方 
向 ) 直到 最 小 。 











点 。 这 些 点 被 称 为 鞍点 (saddle point )。 见 图 4.2 给 出 的 各 种 临界 点 的 例子 。 
Minimum Maximum Saddle point 


图 4.2: 临界 点 的 类 型 。 一 维 情况 下 ， 三 种 临界 点 的 示例 。 临 界 点 是 斜率 为 零 的 点 。 这 样 的 点 可 以 
是 局 部 极 小 点 (local minimum )， 其 值 低 于 相 邻 点 ; BARAA (local maximum )， 其 值 高 于 相 
邻 点 ; 或 鞍点 ， 同 时 存在 更 高 和 更 低 的 相 邻 点 。 














使 f(a) 取得 绝对 的 最 小 值 (相对 所 有 其 他 值 ) 的 点 是 全 局 最 小 点 (global 
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minimum )。 函 数 可 能 只 有 一 个 全 局 最 小 点 或 存在 多 个 全 局 最 小 点 ， 还 可 能 存在 不 是 
全 局 最 优 的 局 部 极 小 点 。 在 深度 学 习 的 背景 下 ， 我 们 要 优化 的 函数 可 能 含有 许多 不 
是 最 优 的 局 部 极 小 点 ， 或 者 还 有 很 多 处 于 非常 平坦 的 区 域内 的 鞍点 。 尤 其 是 当 输 入 
是 多 维 的 时 候 ， 所 有 这 些 都 将 使 优化 变 得 困难 。 因 此 ， 我 们 通常 寻找 使 非常 小 的 
点 ,但 这 在 任何 形式 意义 下 并 不 一 定 是 最 小 。 见 图 4.3 的 例子 。 











This local minimum 
performs nearly as well as 
the global one， 

so it is an acceptable 
halting point. 


Ideally, we would like 
to arrive at the global 
minimum, but this 

might not be possible. 


f(x) 


This local minimum performs 
poorly and should be avoided. 





图 4.3: 近似 最 小 化 。 当 存在 多 个 局 部 极 小 点 或 平坦 区 域 时 ， 优 化 算法 可 能 无 法 找到 全 局 最 小 点 。 


在 深度 学 习 的 背景 下 ， 即 使 找到 的 解 不 是 真正 最 小 的 , 但 只 要 它们 对 应 于 代价 函数 显著 低 的 值 , 我 
们 通常 就 能 接受 这 样 的 解 。 
































我 们 经 常 最 小 化 具有 多 维 输入 的 函数 : 三: 了 "一 月。 为 了 使 “最 小 化 ”的 概念 有 
意义 ， 输 出 必须 是 一 维 的 (标量 )。 

针对 具有 多 维 输 入 的 函数 ， 我 们 需要 用 到 偏 导 数 (partial derivative ) 的 概念 。 
偏 导数 E f(a) 衡量 点 处 只 有 zx; 增加 时 f(z) 如 何 变化 。 梯 度 (gradient ) 是 相 
对 一 个 向 量 求 导 的 导数 :j 的 导数 是 包含 所 有 偏 导 数 的 向 量 ， 记 为 V ,f(z)。 梯 度 的 第 
i 个 元 素 是 f 关于 x; 的 偏 导 数 。 在 多 维 情况 下 ， 临 界 点 是 梯度 中 所 有 元 素 都 为 零 的 
点 


在 (单位 向 量 ) 方向 的 方向 导数 (directional derivative ) 是 函数 f Æ u Ai 
的 斜率 。 换 句 话 说， 方向 导数 是 函数 f(z 十 aa 关于 a 的 导数 (在 a = 0 时 取得 )。 
使 用 链 式 法 则 ， 我 们 可 以 看 到 当 a=0 Hf, Z2f(e@tau)=u'V.f (2). 
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为 了 最 小 化 1， 我 们 希望 找到 使 下 降 得 最 快 的 方向 。 计 算 方 向 导数 ; 


min u Vof (2) (4.3) 
u,u' u=1 
= min lulal Vaf (@)|l2c0s 6 (4.4) 





其 中 9 是 wv 与 梯度 的 夹 角 。 将 ul = 1 代入 ， 并 忽略 与 wv 无 关 的 项 ， 就 能 简化 得 
到 min cos 0。 这 在 u 与 梯度 方向 相反 时 取得 最 小 。 换 句 话 说， 梯度 向 量 指向 上 坡 ， 
负 梯 度 向 量 指向 下 坡 。 我 们 在 负 梯 度 方 向 上 移动 可 以 减 小 了 。 这 被 称 为 最 速 下 降 法 
(method of steepest descent) 或 梯度 下 降 (gradient descent ). 

最 速 下 降 建 议 新 的 点 为 





av = 2-€Vzf(a) (4.5) 


其 中 e 为 学 习 率 (learning rate )， 是 一 个 确定 步 长 大 小 的 正 标量 。 我 们 可 以 通过 几 
种 不 同 的 方式 选择 e。 普 遍 的 方式 是 选择 一 个 小 常数 。 有 时 我 们 通过 计算 ,选择 使 方 
向 导数 消失 的 步 长 。 还 有 一 种 方法 是 根据 几 个 e 计算 f(z 一 eVsf(z))， 并 选择 其 中 
能 产生 最 小 目标 函数 值 的 <。 这 种 策略 被 称 为 线 搜索 。 

最 速 下 降 在 梯度 的 每 一 个 元 素 为 零 时 收敛 〈 或 在 实践 中 ， 很 接近 零 时 )。 在 某 些 
情况 下 ， 我 们 也 许 能 够 避免 运行 该 迭代 算法 ， 并 通过 解 方程 Vaf (2) = 0 直接 跳 到 临 
界 点 。 

虽然 梯度 下 降 被 限制 在 连续 空间 中 的 优化 问题 ， 但 不 断 向 更 好 的 情况 移动 一 小 
步 ( 即 近似 最 佳 的 小 移动 ) 的 一 般 概念 可 以 推广 到 离散 空间 。 递 增 带 有 离散 参数 
的 目标 函数 被 称 为 假山 (hill climbing ) 算法 (Russel and Norvig, 2003). 








4.3.1 ”梯度 之 上 : Jacobian 和 Hessian 和 矩阵 


有 时 我 们 需要 计算 输入 和 输出 都 为 向 量 的 函数 的 所 有 偏 导数 。 包 含 所 有 这 样 的 
偏 导数 的 矩阵 被 称 为 Jacobian (Jacobian ) 矩阵。 具体 来 说 ， 如 果 我 们 有 一 个 函数 : 
f:R”™ SR", ff Jacobian 矩阵 Je R'™" 定义 为 Jij = af (ic 

有 时 , 我 们 也 对 导数 的 导数 感 兴趣 ， 即 二 阶 导数 (second derivative )。 例 如 ， 有 
一 个 函数 SR” >R, f 的 一 阶 导数 (关于 zj) 关于 zi 的 导数 记 为 gdo HEHE 
情况 下 ， 我 们 可 以 将 Sf Oe 六 (z。 二 阶 导 数 告诉 我 们 ， 一 阶 导数 将 如 何 随 着 输入 
的 变化 而 改变 。 它 表示 只 基于 梯度 信息 的 梯度 下 降 步骤 是 否 会 产生 如 我 们 预期 的 那 
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样 大 的 改善 ， 因 此 它 是 重要 的 。 我 们 可 以 认为 ， 二 阶 导数 是 对 曲率 的 衡量 。 假 设 我 
们 有 一 个 二 次 函数 (虽然 很 多 实践 中 的 函数 都 不 是 二 次 的 ， 但 至 少 在 局 部 可 以 很 好 
地 用 二 次 近似 )。 如 果 这 样 的 函数 具有 零 二 阶 导 数 ， 那 就 没有 曲率 。 也 就 是 一 条 完全 
平坦 的 线 ， 仅 用 梯度 就 可 以 预测 它 的 值 。 我 们 使 用 沿 负 梯 度 方向 大 小 为 e 的 下 降 步 ， 
当 该 梯度 是 1 时 ， 代 价 函数 将 下 降 e。 如 果 二 阶 导 数 是 负 的 ， 函 数 曲 线 向 下 凹陷 (向 
EH), KERA REK FERIE e 多 。 如 果 二 阶 导数 是 正 的 ， 函 数 曲 线 是 向 上 凹 
隐 (向 下 上 是 出)， 因 此 代价 函数 将 下 降 的 比 e 少 。 从 图 4.4 可 以 看 出 不 同形 式 的 曲率 如 
何 影响 基于 梯度 的 预测 值 与 真实 的 代价 了 数值 的 关系 。 


Negative curvature No curvature Positive curvature 
O O O 
B Ra B 
x x x 
T x x 


图 4.4: 二 阶 导数 确定 函数 的 曲率 。 这 里 我 们 展示 具有 各 种 曲率 的 二 次 函数 。 虚 线 表示 我 们 仅 根 据 
梯度 信息 进行 梯度 下 降 后 预期 的 代价 函数 值 。 对 于 负 曲 率 ， 代 价 函 数 实际 上 比 梯度 预测 下 降 得 更 
快 。 没有 曲率 时 ,梯度 正确 预测 下 降 值 。 对 于 正 曲 率 ， 函 数 比 预期 下 降 得 更 慢 ， 并且 最 终 会 开始 增 
加 ， 因 此 太 大 的 步 又 实际 上 可 能 会 无 意 地 增加 函数 值 。 





















































当 我 们 的 函数 具有 多 维 输入 时 ， 二 阶 导 数 也 有 很 多 。 我 们 可 以 将 这 些 导数 合并 
成 一 个 和 矩阵 ， 称 为 Hessian (Hessian ) 矩阵 。Hessian 矩阵 H(f)(x) 定义 为 
82 


Hessian 等 价 于 梯度 的 Jacobian 和 矩阵 。 
微分 算 子 在 任何 二 阶 偏 导 连续 的 点 处 可 交换 ， 也 就 是 它们 的 顺序 可 以 互 换 : 


o? o? 





(4.7) 
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这 意味 着 Hi; = Hja Alt Hessian 算 阵 在 这 些 点 上 是 对 称 的 。 在 深度 学 习 背 景 下 ， 
我 们 遇 到 的 大 多 数 函 数 的 Hessian 几乎 处 处 都 是 对 称 的 。 因 为 Hessian 矩阵 是 实 对 
称 的 ， 我 们 可 以 将 其 分 解 成 一 组 实 特征 值 和 一 组 特征 向 量 的 正 交 基 。 在 特定 方向 d 
上 的 二 阶 导 数 可 以 写成 d Hd。 当 d 是 五 的 一 个 特征 向 量 时 ， 这 个 方向 的 二 阶 导 
数 就 是 对 应 的 特征 值 。 对 于 其 他 的 方向 d， 方 向 二 阶 导数 是 所 有 特征 值 的 加 权 平 均 ， 
权重 在 0 和 1 之 间 ， 且 与 d 夹 角 越 小 的 特征 问 量 的 权重 越 大 。 最 大 特征 值 确定 最 
大 二 阶 导 数 ， 最 小 特征 值 确定 最 小 二 阶 导数 。 

我 们 可 以 通过 (方向 ) 二 阶 导 数 预期 一 个 梯度 下 降 步骤 能 表现 得 多 好 。 我 们 在 
当前 点 © Abe RRA f(x) 的 近似 二 阶 泰勒 级 数 : 


fla) © Fal) + (ws) Tg + iE- OTHE- 2), (48) 


其 中 9 是 梯度 ， 互 是 co 点 的 Hessian。 如 果 我 们 使 用 学 习 率 e， 那 么 新 的 点 e Hi 
会 是 x0 一 eg。 代入 上 述 的 近似 ， 可 得 


1 
f(a — eg) ~ fa) eg" g+ 3e9 Hg. (4.9) 


其 中 有 3 项 : 函数 的 原始 值 、 函 数 和 斜率 导致 的 预期 改善 、 函 数 曲 率 导致 的 校正 。 当 
最 后 一 项 太 大 时 ,梯度 下 降 实 际 上 是 可 能 向 上 移动 的 。 当 g Hg 为 零 或 负 时 ， 近 似 
的 泰勒 级 数 表明 增加 e 将 永远 使 了 下降 。 在 实践 中 ,泰勒 级 数 不 会 在 。 大 的 时 候 也 
保持 准确 ， 因 此 在 这 种 情况 下 我 们 必须 采取 更 启发 式 的 选择 。 当 g' Hg 为 正 时 ， 通 
过 计算 可 得 ， 使 近似 泰勒 级 数 下 降 最 多 的 最 优 步 长 为 





ee tH (4.10) 


最 坏 的 情况 下 ，g SA RARE Amax 对 应 的 特征 向 量 对 齐 ， 则 最 优 步 长 是 x. 
我 们 要 最 小 化 的 函数 能 用 二 次 函数 很 好 地 近似 的 情况 下 ，Hessian 的 特征 值 决定 了 学 
习 率 的 量 级 。 

二 阶 导 数 还 可 以 被 用 于 确定 一 个 临界 点 是 否 是 局 部 极 大 点 、 局 部 极 小 点 或 鞍点 。 
回想 一 下 ， 在 临界 点 处 f(z) = 0。 而 fx) > 0 意味 着 f(x) 会 随 着 我 们 移 向 右边 
而 增加 ， 移 向 左边 而 减 小 , 也 就 是 jz e) <0 和 f(z 十 e) > 0 对 足够 小 的 e 成立。 
换 句 话说 ， 当 我 们 移 向 右边 ， 和 斜率 开始 指向 右边 的 上 坡 ， 当 我 们 移 向 左边 ， 和 斜率 开 
始 指向 左边 的 上 坡 。 因 此 我 们 得 出 结论 ， 当 f(x) =0 H f(e) > 0 时 ，z 是 一 个 局 
部 极 小 点 。 同 样 ， 当 (x) = 0 H f(x) < 0 时 ，z 是 一 个 局 部 极 大 点 。 这 就 是 所 谓 
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的 二 阶 导数 测试 (second derivative test). AWE, 4 f(e) = 0 时 测试 是 不 确 
定 的 。 在 这 种 情况 下 ，z 可 以 是 一 个 鞍点 或 平坦 区 域 的 一 部 分 。 

在 多 维 情况 下 ， 我 们 需要 检测 函数 的 所 有 二 阶 导 数 。 利 用 Hessian 的 特征 值 分 
解 ， 我 们 可 以 将 二 阶 导 数 测试 扩展 到 多 维 情况 。 在 临界 点 处 (Vsf (x) = 0 )， 我 们 通 
过 检测 Hessian 的 特征 值 来 判断 该 临界 点 是 一 个 局 部 极 大 点 、 局 部 极 小 点 还 是 鞍点 。 
当 Hessian 是 正定 的 (所 有 特征 值 都 是 正 的 )， 则 该 临界 点 是 局 部 极 小 点 。 因 为 方 
向 二 阶 导 数 在 任意 方向 都 是 正 的 ， 参 考 单 变量 的 二 阶 导 数 测试 就 能 得 出 此 结论 。 同 
样 的 ， 当 Hessian 是 负 定 的 《所 有 特征 值 都 是 负 的 )， 这 个 点 就 是 局 部 极 大 点 。 在 多 
维 情况 下 ， 实 际 上 我 们 可 以 找到 确定 该 点 是 否 为 鞍点 的 积极 迹象 ( 某 些 情况 下 )。 如 
果 Hessian 的 特征 值 中 至 少 一 个 是 正 的 且 至 少 一 个 是 负 的 ， 那么 z 是 f 某 个 横 截 面 
的 局 部 极 大 点 ， 却 是 另 一 个 横 截 面 的 局 部 极 小 点 。 见 图 4.5 中 的 例子 。 最 后 ， 多 维 二 
阶 导 数 测试 可 能 像 单 变量 版 本 那样 是 不 确定 的 。 当 所 有 非 零 特 征 值 是 同 号 的 且 至 少 
有 一 个 特征 值 是 0 时 ， 这 个 检测 就 是 不 确定 的 。 这 是 因为 单 变量 的 二 阶 导 数 测试 在 
零 特 征 值 对 应 的 横 截 面 上 是 不 确定 的 。 

















图 4.5: 既 有 正 曲率 又 有 负 曲 率 的 鞍点 。 示 例 中 的 函数 是 f(z) = zi 一 23. PRB c HI be 
HH. ay 轴 是 Hessian 的 一 个 特征 向 量 ， 并 且 具 有 正 特 征 值 。 函 数 沿 zs 轴 向 下 弯曲 。 该 方向 对 应 
于 Hessian 负 特征 值 的 特征 向 量 。 名 称 “ 鞍 点” 源 自 该 处 函数 的 鞍 状 形状 。 这 是 具有 壕 点 函数 的 典 
型 示例 。 维度 多 于 一 个 时 , 园 点 不 一 定 要 具有 0 特征 值 : 仅 需要 同时 具有 正 特征 值 和 负 特 征 值 。 我 
们 可 以 想象 这 样 一 个 鞍点 (具有 正 负 特征 值 ) 在 一 个 横 截 面 内 是 局 部 极 大 点 ， 而 在 另 一 个 横 截 面 
内 是 局 部 极 小 点 。 




























































































多 维 情况 下 ， 单 个 点 处 每 个 方向 上 的 二 阶 导 数 是 不 同 。Hessian 的 条 件数 衡量 
这 些 二 阶 导数 的 变化 范围 。 当 Hessian 的 条 件数 很 差 时 ， 梯 度 下 降 法 也 会 表现 得 很 


ww ai bt.com GOOO000 


dourbz/350DFo 


4.3 基于 梯度 的 优化 方法 81 


差 。 这 是 因为 一 个 方向 上 的 导数 增加 得 很 快 ， 而 在 另 一 个 方向 上 增加 得 很 慢 。 梯 度 
下 降 不 知道 导数 的 这 种 变化 ， 所 以 它 不 知道 应 该 优先 探索 导数 长 期 为 负 的 方向 。 病 
态 条 件 也 导致 很 难 选择 合适 的 步 长 。 步 长 必须 足够 小 ， 以 免 冲 过 最 小 而 向 具有 较 强 
正 曲 率 的 方向 上 升 。 这 通常 意味 着 步 长 太 小 ， 以 致 于 在 其 他 较 小 曲率 的 方向 上 进展 
不 明显 。 见 图 4.6 的 例子 。 





30 
一 30 —20 —10 0 10 20 


Tı 














图 4.6: 梯度 下 降 无 法 利用 包含 在 Hessian 矩阵 中 的 曲率 信息 。 这 里 我 们 使 用 梯度 下 降 来 最 小 
化 Hessian 矩阵 条 件数 为 5 的 二 次 函数 f(z)。 这 意味 着 最 大 曲率 方向 具有 比 最 小 曲率 方向 多 五 倍 
的 曲率 。 在 这 种 情况 下 ， 最 大 曲率 在 [1, 1]” 方向 上 ,最 小 曲率 在 [1, 一 1]" 方向 上 。 红 线 表示 梯度 
下 降 的 路 径 。 这 个 非常 细 长 的 二 次 函数 类 似 一 个 长 峡谷 。 梯 度 下 降 把 时 间 浪 费 于 在 峡谷 壁 反复 下 
降 ， 因 为 它们 是 最 陡峭 的 特征 。 由 于 步 长 有 点 大 ， 有 超过 函数 底部 的 趋势 ， 因 此 需要 在 下 一 次 迭代 
时 在 对 面 的 峡谷 壁 下 降 。 与 指向 该 方向 的 特征 向 量 对 应 的 Hessian 的 大 的 正 特征 值 表示 该 方向 上 
的 导数 快速 增加 ， 因 此 基于 Hessian 的 优化 算法 可 以 预测 ， 在 此 情况 下 最 陡峭 方向 实际 上 不 是 有 
前 途 的 搜索 方向 。 


































































































我 们 可 以 使 用 Hessian 抢 阵 的 信息 来 指导 搜索 ， 以 解决 这 个 问题 。 其 中 最 简单 
的 方法 是 牛顿 法 (Newton's method )。 牛顿 法 基于 一 个 二 阶 泰勒 展开 来 近似 zto) 附 
近 的 f(a): 
F(a) = Fa) + (w a) etl) + Ee- a) HN) (@)(@— a). (4 
接着 通过 计算 ， 我 们 可 以 得 到 这 个 函数 的 临界 点 : 
a = 2 — H( f) (0) V ef (a). (4.12) 
当 f 是 一 个 正定 二 次 函数 时 ， 牛 顿 法 只 要 应 用 一 次 式 (4.12) 就 能 直接 跳 到 函数 的 最 
小 点 。 如 果 f 不 是 一 个 真正 二 次 但 能 在 局 部 近似 为 正定 二 次 ， 牛 顿 法 则 需要 多 次 过 
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代 应 用 式 (4.12) 。 和 迭代 地 更 新 近似 函数 和 跳 到 近似 函数 的 最 小 点 可 以 比 梯度 下 降 更 
快 地 到 达 临 界 点 。 这 在 接近 局 部 极 小 点 时 是 一 个 特别 有 用 的 性 质 ， 但 是 在 鞍点 附近 
是 有 害 的 。 如 式 (8.2.3) 所 讨论 的 ， 当 附近 的 临界 点 是 最 小 点 ( Hessian 的 所 有 特征 值 
都 是 正 的 ) 时 牛顿 法 才 适 用 ， 而 梯度 下 降 不 会 被 吸引 到 鞍点 (除非 梯度 指向 鞍点 )。 

仅 使 用 梯度 信息 的 优化 算法 被 称 为 一 阶 优化 算法 (first-order optimization al- 
gorithms)， 如 梯度 下 降 。 使 用 Hessian 和 矩阵 的 优化 算法 被 称 为 二 阶 最 优化 算法 
(second-order optimization algorithms)(Nocedal and Wright, 2006)， 如 牛顿 法 。 

在 本 书 大 多 数 上 下 文中 使 用 的 优化 算法 适用 于 各 种 各 样 的 孔 数 ， 但 儿 乎 都 没有 
保证 。 因 为 在 深度 学 习 中 使 用 的 函数 族 是 相当 复杂 的 ， 所 以 深度 学 习 算 法 往往 缺乏 
保证 。 在 许多 其 他 领域 ， 优 化 的 主要 方法 是 为 有 限 的 函数 族 设 计 优 化 算法 。 

在 深度 学 习 的 背景 下 ,限制 函数 满足 Lipschitz 连续 (Lipschitz continuous ) 或 
其 导数 Lipschitz 连 续 可 以 获得 一 些 保证 。 Lipschitz 连续 函数 的 变化 速度 以 Lipschitz 
常数 (Lipschitz constant ) LAF: 














Va, Vy, |f(#) — f(y] < Lle- glo. (4.13) 


这 个 属性 允许 我 们 量化 我 们 的 假设 一 一 梯度 下 降 等 算法 导致 的 输入 的 微小 变化 将 使 
输出 只 产生 微小 变化 ,因此 是 很 有 用 的 。Lipschitz 连续 性 也 是 相当 弱 的 约束 ， 并 
且 深 度 学 习 中 很 多 优化 问题 经 过 相对 较 小 的 修改 后 就 能 变 得 Lipschitz 连续 。 

最 成 功 的 特定 优化 领域 或 许 是 凸 优化 ( Convex optimization )。 四 优化 通过 更 强 
的 限制 提供 更 多 的 保证 。 同 优化 算法 上 只 对 凸 函 数 适用 ， 即 Hessian 处 处 半 正 定 的 函 
数 。 因 为 这 些 函 数 没 有 鞍点 而 且 其 所 有 局 部 极 小 点 必然 是 全 局 最 小 点 ， 所 以 表现 很 
好 。 然 而 ,深度 学 习 中 的 大 多 数 问 题 都 难以 表示 成 凸 优化 的 形式 。 凸 优化 仅 用 作 一 
些 深度 学 习 算 法 的 子 程序 。 凸 优化 中 的 分 析 思 路 对 证 明 深度 学 习 算 法 的 收敛 性 非常 
有 用 ， 然 而 一 般 来 说 ， 深 度 学 习 背 景 下 凸 优化 的 重要 性 大 大 减少 。 有 关 凸 优化 的 详 
细 信 息 ， 详 见 Boyd and Vandenberghe (2004) 或 Rockafellar (1997)。 














4.4 约束 优化 


有 时 候 ， 在 z 的 所 有 可 能 值 下 最 大 化 或 最 小 化 一 个 函数 f(z) 不 是 我 们 所 希望 
的 。 相 反 ， 我 们 可 能 希望 在 x 的 某 些 集合 S 中 找 f(x) 的 最 大 值 或 最 小 值 。 这 被 称 
为 约束 优化 (constrained optimization )。 在 约束 优化 术语 中 , BAS 内 的 点 x 被 称 
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为 可行 (feasible ) 点 。 

我 们 常常 希望 找到 在 某 种 意义 上 小 的 解 。 针 对 这 种 情况 下 的 常见 方法 是 强加 一 
个 范 数 约束 ， 如 lal] < 1。 

约束 优化 的 一 个 简单 方法 是 将 约束 考虑 在 内 后 简单 地 对 梯度 下 降 进行 修改 。 如 
果 我 们 使 用 一 个 小 的 恒定 步 长 e， 我 们 可 以 先 取 梯 度 下 降 的 单 步 结果 ， 然 后 将 结果 投 
影 回 S$。 如 果 我 们 使 用 线 搜索 , 我 们 只 能 在 步 长 为 e 范围 内 搜索 可 行 的 新 z 点 , 或 者 
我 们 可 以 将 线 上 的 每 个 点 投影 到 约束 区 域 。 如 果 可 能 的 话 ， 在 梯度 下 降 或 线 搜索 前 
将 梯度 投影 到 可 行 域 的 切 空间 会 更 高 效 (Rosen, 1960)。 

一 个 更 复杂 的 方法 是 设计 一 个 不 同 的 、 无 约束 的 优化 问题 ， 其 解 可 以 转化 成 原 
始 约束 优化 问题 的 解 。 例 如 , 我 们 要 在 xe R 中 最 小 化 f(x), 其 中 z 约束 为 具有 单 
位 L 范 数 。 我 们 可 以 关于 0 最 小 化 g(9) = f([cos 0,sin9]')， 最 后 返回 [cos 0, sin 6] 
作为 原 问题 的 解 。 这 种 方法 需要 创造 性 ; 优化 问题 之 间 的 转换 必须 专门 根据 我 们 遇 
到 的 每 一 种 情况 进行 设计 。 

Karush-Kuhn-Tucker ( KKT ) 方法 ?是 针对 约束 优化 非常 通用 的 解决 方案 。 
为 介绍 KKT 方 法 ， 我 们 引入 一 个 称 为 广义 Lagrangian (generalized Lagrangian ) 
或 广义 Lagrange 函数 (generalized Lagrange function ) WJ% AŽ 

为 了 定义 Lagrangian， 我 们 先 要 通过 等 式 和 不 等 式 的 形式 描述 S。 我 们 希望 通 
过 m 个 函数 gO All n PPR AY) HE S, WAS 可 以 表示 为 $= {2 | Vi, g(a) = 
0 and Yj, hO (a) < 0}。 其 中 涉及 gO 的 等 式 称 为 等 式 约束 (equality constraint ), 
涉及 AD 的 不 等 式 称 为 不 等 式 约束 (inequality constraint )。 

我 们 为 每 个 约束 引入 新 的 变量 X 和 a;， 这 些 新 变量 被 称 为 KKT 乘 子 。 广 义 
Lagrangian 可 以 如 下 定义 : 




















L(x,M,a) = f(x) + De dig (x) + De azh (æ). (4.14) 





现在 ， 我 们 可 以 通过 优化 无 约束 的 广义 Lagrangian 解决 约束 最 小 化 问题 。 只 要 
存在 至 少 一 个 可 行 点 且 f(x) 不 允许 取 co， 那么 


min max max L(x, A, œ) (4.15) 
x A a,a>0 





°KKT 方法 是 Lagrange RFK ( 只 允许 等 式 约束 ) 的 推广 。 
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与 如 下 函数 有 相同 的 最 优 目标 函数 值 和 最 优点 集 z 


min f(z). (4.16) 
这 是 因为 当 约 束 满足 时 ， 
max max L(z, A, a) = f(x), (4.17) 
而 违反 任意 约束 时 ， 
max max L(a, A, a) = œ. (4.18) 


A a,a> 
这 些 性 质保 证 不 可 行 点 不 会 是 最 佳 的 ， 并 且 可 行 点 范围 内 的 最 优点 不 变 。 


要 解决 约束 最 大 化 问题 ， 我 们 可 以 构造 — f (ae) 的 广义 Lagrange 函数 ， 从 而 导 
致 以 下 优化 问题 : 














min max max — x) + > dg (a) + oe ajh (a). (4.19) 
j 


我 们 也 可 将 其 转换 为 在 外 层 最 大 化 的 问题 : 


max min amin MG ) + 2 Aig p? ajh (x (4.20) 





等 式 约束 对 应 项 的 符号 并 不 重要 ; 因为 优化 可 以 自由 选择 每 个 A 的 符号 ， 我 们 可 以 
随意 将 其 定义 为 加 法 或 减法 。 

不 等 式 约束 特别 有 趣 。 如 果 O) = 0， 我 们 就 说 说 这 个 约束 hO (x) 是 活跃 
(active) 的 。 如 果 约 束 不 是 活跃 的 ， 则 有 该 约束 的 问题 的 解 与 去 掉 该 约束 的 问题 的 
解 至 少 存在 一 个 相同 的 局 部 解 。 一 个 不 活跃 约束 有 可 能 排除 其 他 解 。 例 如 ， 整 个 区 
域 (代价 相等 的 宽 平 区 域 ) 都 是 全 局 最 优点 的 的 凸 问题 可 能 因 约 柬 消 去 其 中 的 某 个 
子 区域 ， 或 在 非 凸 问题 的 情况 下 ， 收 和 敛 时 不 活跃 的 约束 可 能 排除 了 较 好 的 局 部 驻 点 。 
然而 ,无论 不 活跃 的 约束 是 否 被 包括 在 内 ， 收 敛 时 找到 的 点 仍然 是 一 个 驻 点 。 因 为 

一 个 不 活跃 的 约束 RO 必 有 人 负 值 ， 那 么 min max max L(g, A, a) 中 的 a; =0. Al 
此 ， 我 们 可 以 观 mean a © h(x) = o. 换 句 话说 ， 对 于 所 有 的 i, a; >0 或 
AD (x) < 0 ae 是 活跃 的 。 为 了 获得 关于 这 个 想法 的 一 些 直观 解释 ， 
PA eR 我 们 必须 通过 对 应 的 KKT 乘 子 影响 z 
的 解 ， 或 者 不 等 式 对 解 没有 影响 ， 我 们 则 归 零 KKT RF. 
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我 们 可 以 使 用 一 组 简单 的 性 质 来 描述 约束 优化 问题 的 最 优点 。 这 些 性 质 称 
为 Karush-Kuhn-Tucker (KKT ) 条 件 (Karush, 1939; Kuhn and Tucker, 1951)。 
这 些 是 确定 一 个 点 是 最 优点 的 必要 条 件 ， 但 不 一 定 是 充分 条 件 。 这 些 条 件 是 : 
e 广义 Lagrangian 的 梯度 为 零 。 
。 所 有 关于 a 和 KKT 乘 子 的 约束 都 满足 。 
e 不 等 式 约束 显示 的 “互补 松弛 性 ”: a © h(x) = 0。 





有 关 KKT 方法 的 详细 信息 ， 请 参阅 Nocedal and Wright (2006)。 


4.5 ”实例 : 线性 最 小 二 乘 


假设 我 们 和 希望 找到 最 小 化 下 式 的 x 值 
1 
f(x) = 5||Aw— bll. (4.21) 
存在 专门 的 线性 代数 算法 能 够 高 效 地 解决 这 个 问题 ; 但 是 ， 我 们 也 可 以 探索 如 何 使 
用 基于 梯度 的 优化 来 解决 这 个 问题 ， 这 可 以 作为 这 些 技术 是 如 何 工 作 的 一 个 简单 例 
于 3 
首先 ， 我 们 计算 梯度 : 


V.f(x) = A'(Az-— b) = A' Az- A'b. (4.22) 


然后 ,我 们 可 以 采用 小 的 步 长 ， 并 按照 这 个 梯度 下 降 。 见 算法 4.1 中 的 详细 信息 。 


算法 4.1 从 任意 点 z 开始 ， 使 用 梯度 下 降 关 于 z 最 小 化 f(z) = HAr- bll 的 算 
法 。 
将 步 长 (e) 和 容 差 (6) 设 为 小 的 正 数 。 
while ||4' Azx— A'bll > 5 do 
rt LE (4 4z- A'b) 


end while 








我 们 也 可 以 使 用 牛顿 法 解决 这 个 问题 。 因 为 在 这 个 情况 下 ， 真 实 函 数 是 二 次 的 ， 
牛顿 法 所 用 的 二 次 近似 是 精确 的 ， 该 算法 会 在 一 步 后 收敛 到 全 局 最 小 点 。 
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现在 假设 我 们 希望 最 小 化 同样 的 函数 ， 但 受 zz < 1 的 约束 。 要 做 到 这 一 点 ， 
我 们 引入 Lagrangian 
L(x, A) = f(z) + A(z' æ — 1). (4.23) 
现在 ， 我 们 解决 以 下 问题 


ie L(x, A). (4.24) 


T 





我 们 可 以 用 Moore-Penrose (yi: a= Ab 找到 无 约束 最 小 二 乘 问题 的 最 小 范 
数 解 。 如 果 这 一 点 是 可 行 , 那么 这 也 是 约束 问题 的 解 。 否 则 ,我 们 必须 找到 约束 是 活 
跃 的 解 。 关 于 x 对 Lagrangian 微分 ， 我 们 得 到 方程 





A'Az— 4 0 十 2Xz=0. (4.25) 
就 告诉 我 们 ， 该 解 的 形式 将 会 是 
a=(A'A+2\D1A'D. (4.26) 


入 的 选择 必须 使 结果 服从 约束 。 我 们 可 以 关于 入 进行 梯度 上 升 找 到 这 个 值 。 为 了 做 
到 这 一 点 ， 观 察 

o 

ðA 
当 z 的 范 数 超过 1 时 ,该 导数 是 正 的 ， 所 以 为 了 跟随 导数 上 坡 并 相对 入 增 
加 Lagrangian， 我 们 需要 增加 A. AN zz 的 惩罚 系数 增加 了 ， 求解 关于 x 的 
线性 方程 现在 将 得 到 具有 较 小 范 数 的 解 。 求 解 线性 方程 和 调整 和 的 过 程 将 一 直 持 续 
到 a 具有 正确 的 范 数 并 且 关 于 A 的 导数 是 0。 


本 章 总 结 了 开发 机 带 学 习 算法 所 需 的 数学 基础 。 现 在 ,我 们 已 经 准备 好 建立 和 
分 析 一 些 成 熟 的 学 习 系 统 。 


L(x, =" «—1. (4.27) 
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深度 学 习 是 机 器 学 习 的 一 个 特定 分 支 。 我 们 要 想 充 分 理解 深度 学 习 ， 必 须 对 机 器 
学 习 的 基本 原理 有 深刻 的 理解 。 本 章 将 探讨 贯穿 本 书 其 余部 分 的 一 些 机 器 学 习 重要 
原理 。 我 们 建议 新 手 读者 或 是 希望 更 全 面 了 解 的 读者 参考 一 些 更 全 面 覆 盖 基 础 知识 
的 机 器 学 习 参 考 书 , 例如 Murphy (2012) 或 者 Bishop (2006)。 如 果 你 已 经 熟知 机 器 
学 习 ， 可 以 跳 过 前 面 的 部 分 ， 前 往 第 5.11 节 。 第 5.11 节 涵盖 了 一 些 传统 机 器 学 习 技 
术 观 点 ， 这 些 技术 对 深度 学 习 的 发 展 有 着 深远 影响 。 

首先 , 我 们 将 介绍 学 习 算 法 的 定义 ,并 介绍 一 个 简单 的 示例 : 线性 回归 算法 。 接 
下 来 ,我 们 会 探讨 拟 合 训练 数据 与 寻找 能 够 泛 化 到 新 数据 的 模式 存在 哪些 不 同 的 挑 
战 。 大 部 分 机 器 学 习 算法 都 有 起 参数 (必须 在 学 习 算 法 外 设 定 ); 我 们 将 探讨 如 何 使 
用 额外 的 数据 设置 超 参 数 。 机 器 学 习 本 质 上 属于 应 用 统计 学 ， 更 多 地 关注 于 如 何 用 
计算 机 统计 地 估计 复杂 函数 ， 不 太 关 注 为 这 些 函 数 提供 置信 区 间 ; 因此 我 们 会 探讨 
两 种 统计 学 的 主要 方法 : 频率 派 估 计 和 贝 叶 斯 推断 。 大 部 分 机 顺 学 习 算 法 可 以 分 成 监 
督学 习 和 无 监督 学 习 两 类 ; 我 们 将 探讨 不 同 的 分 类 ， 并 为 每 类 提供 一 些 简单 的 机 器 
学 习 算法 作为 示例 。 大 部 分 深度 学 习 算 法 都 是 基于 被 称 为 随机 梯度 下 降 的 算法 求解 
的 。 我 们 将 介绍 如 何 组 合 不 同 的 算法 部 分 ， 例 如 优化 算法 、 代 价 函 数 、 模 型 和 数据 
集 ， 来 建立 一 个 机 器 学 习 算 法 。 最 后 在 第 5.11 节 ， 我 们 会 介绍 一 些 限 制 传统 机 器 学 
习 泛 化 能 力 的 因素 。 这 些 挑战 促进 了 解决 这 些 问 题 的 深度 学 习 算 法 的 发 展 。 























5.1 学习 算 法 


机 器 学 习 算 法 是 一 种 能 够 从 数据 中 学 习 的 算法 。 然 而 ， 我 们 所谓 的 “学 习 ” 是 什 
么 意思 呢 ? Mitchell (1997) 提供 了 一 个 简洁 的 定义 :“ 对 于 某 类 任务 T 和 性 能 度量 
尸 ， 一 个 计算 机 程序 被 认为 可 以 从 经 验 E 中 学 习 是 指 ， 通 过 经 验 BBE, “EEE 
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务 T 上 由 性 能 度量 P 衡量 的 性 能 有 所 提升 。” 经 验 EB, E5 了 和 性 能 度量 P 的 定 
义 范围 非常 宽广 ， 在 本 书 中 我 们 并 不 会 试图 去 解释 这 些 定义 的 具体 意义 。 相 反 ， 我 
们 会 在 接 下 来 的 章节 中 提供 直观 的 解释 和 示例 来 介绍 不 同 的 任务 、 性 能 度量 和 经 验 ， 
这 些 将 被 用 来 构建 机 器 学 习 算法 。 


5.1.1 FST 


机 器 学 习 可 以 让 我 们 解决 一 些 人 为 设计 和 使 用 确定 性 程序 很 难 解决 的 问题 。 从 
科学 和 哲学 的 角度 来 看 ， 机 需 学 习 受 到 关注 是 因为 提高 我 们 对 机 器 学 习 的 认识 需要 
提高 我 们 对 智能 背后 原理 的 理解 。 

从 “任务 ”的 相对 正式 的 定义 上 说 ， 学习 过 程 本 身 不 能 算是 任务 。 学 习 是 我 们 所 
谓 的 获取 完成 任务 的 能 力 。 例 如 ， 我 们 的 目标 是 使 机 器 人 能 够 行走 ， 那 么 行走 便 是 
任务 。 我 们 可 以 编程 让 机 器 人 学 会 如 何 行走 ， 或 者 可 以 人 工 编 写 特 定 的 指令 来 指导 
机 需 人 如 何 行走 。 

通常 机 器 学 习 任 务 定 义 为 机 器 学 习 系 统 应 该 如 何 处 理 样 本 (example )。 样 本 是 
指 我 们 从 某 些 希 望 机 器 学 习 系 统 处 理 的 对 象 或 事件 中 收集 到 的 已 经 量化 的 特征 
(feature ) 的 集合 。 我们 通常 会 将 样本 表示 成 一 个 向 量 ze R"， 其 中 癌 量 的 每 一 个 元 
素 z; 是 一 个 特征 。 例 如 ， 一 张 图 片 的 特征 通常 是 指 这 张 图 片 的 像素 值 。 

机 器 学 习 可 以 解决 很 多 类 型 的 任务 。 一 些 非常 常见 的 机 器 学 习 任 务 列举 如 下 : 








。 分 类 : 在 这 类 任务 中 ， 计 算 机 程序 需要 指定 某 些 输入 属于 类 中 的 哪 一 类 。 
为 了 完成 这 个 任务 ， 学 习 算 法 通常 会 返回 一 个 函数 f: R {1,...,k}. 4 
y = f(x) 时 ,， 模 型 将 向 量 oe 所 代表 的 输入 分 类 到 数字 码 y 所 代表 的 类 别 。 还 有 
一 些 其 他 的 分 类 问题 ， 例 如 ，f 输出 的 是 不 同类 别 的 概率 分 布 。 分 类 任务 中 有 
一 个 任务 是 对 象 识 别 ， 其 中 输入 是 图 片 (通常 由 一 组 像素 亮度 值 表示 )， 输 出 
是 表示 图 片 物 体 的 数字 码 。 例 如 ，Willow Garage PR2 机 器 人 能 像 服务 员 一 样 
识别 不 同 饮料 ， 并 送 给 点 餐 的 顾客 (Goodfellow et al., 2010)。 目 前 ， 最 好 的 对 
象 识别 工作 正 是 基于 深度 学 习 的 (Krizhevsky et al., 2012a; Ioffe and Szegedy, 
2015)。 对 象 识别 同时 也 是 计算 机 识别 人 脸 的 基本 技术 ， 可 用 于 标记 相片 合辑 中 
的 人 脸 (Taigman et al., 2014), ， 有 助 于 计算 机 更 自然 地 与 用 户 交 互 。 


。 输 入 缺失 分 类 : 当 输 入 向 量 的 每 个 度量 不 被 保证 的 时 候 ， 分 类 问题 将 会 变 得 更 
有 挑战 性 。 为 了 解决 分 类 任务 ， 学 习 算法 只 需要 定义 一 个 从 输入 向 量 映射 到 输 
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出 类 别 的 函数 。 当 一 些 输入 可 能 丢失 时 ， 学 习 算 法 必须 学 习 一 组 函数 ， 而 不 是 
单个 分 类 函数 。 每 个 函数 对 应 着 分 类 具有 不 同 缺 失 输入 子 集 的 rz。 这 种 情况 在 
医疗 诊断 中 经 常 出 现 ， 因 为 很 多 类 型 的 医学 测试 是 昂贵 的 ， 对 身体 有 害 的 。 有 
效 地 定义 这 样 一 个 大 集合 函数 的 方法 是 学 习 所 有 相关 变量 的 概率 分 布 ， 然 后 通 
过 边缘 化 缺失 变量 来 解决 分 类 任务 。 使 用 ”个 输入 变量 ， 我 们 现在 可 以 获得 每 
个 可 能 的 缺失 输入 集合 所 需 的 所 有 2” 个 不 同 的 分 类 函数 ， 但 是 计算 机 程序 仅 
需要 学 习 一 个 描述 联合 概率 分 布 的 函数 。 人 参见 Goodfellow et al. (2013d) 了 解 
以 这 种 方式 将 深度 概率 模型 应 用 于 这 类 任务 的 示例 。 本 节 中 描述 的 许多 其 他 任 
务 也 可 以 推广 到 缺失 输入 的 情况 ; 缺失 输入 分 类 只 是 机 器 学 习 能 够 解决 的 问题 
的 一 个 示例 。 


回归 : 在 这 类 任务 中 ， 计 算 机 程序 需要 对 给 定 输入 预测 数值 。 为 了 解决 这 个 任 
务 ， 学习 算法 需要 输出 函数 f R 一 民 。 除 了 返回 结果 的 形式 不 一 样 外 ， 这 类 
问题 和 分 类 问题 是 很 像 的 。 这 类 任务 的 一 个 示例 是 预测 投保 人 的 索赔 金额 (用 
于 设置 保险 费 )， 或 者 预测 证 券 未 来 的 价格 。 这 类 预测 也 用 在 算法 交易 中 。 


转录 : 这 类 任务 中 ， 机 器 学 习 系统 观 测 一 些 相对 非 结构 化 表示 的 数据 ， 并 转 
录 信 息 为 离散 的 文本 形式 。 例 如 ， 光 学 字符 识别 要 求 计算 机 程序 根据 文本 图 片 
返回 文字 序列 ( ASCII 码 或 者 Unicode 码 )。 谷歌 街景 以 这 种 方式 使 用 深度 学 
习 处 理 街道 编号 (Goodfellow et al., 2014d)。 男 一 个 例子 是 语音 识别 ， 计 算 机 
程序 输入 一 段 音 频 波形 ， 输 出 一 序列 音频 记录 中 所 说 的 字符 或 单词 ID 的 编码 。 
深度 学 习 是 现代 语音 识别 系统 的 重要 组 成 部 分 ， 被 各 大 公司 广泛 使 用 ， 包 括 微 
软 , IBM 和 谷歌 (Hinton et al., 2012a)。 

















机 器 翻译 : 在 机 顺 翻 译 任务 中 ， 输 入 是 一 种 语言 的 符号 序列 ， 计 算 机 程序 必须 
将 其 转化 成 另 一 种 语言 的 符号 序列 。 这 通常 适用 于 自然 语言 ， 如 将 英语 译 成 
法 语 。 最 近 ， 深 度 学 习 已 经 开始 在 这 个 任务 上 产生 重要 影响 (Sutskever et al., 
2014; Bahdanau et al., 2015)。 


结构 化 输出 : 结构 化 输出 任务 的 输出 是 向 量 或 者 其 他 包含 多 个 值 的 数据 结构 ， 
并 且 构 成 输出 的 这 些 不 同 元 素 间 具有 重要 关系 。 这 是 一 个 很 大 的 范畴 ， 包 括 上 
述 转录 任务 和 翻译 任务 在 内 的 很 多 其 他 任务 。 例 如 语法 分 析 一 一 映射 自然 语言 
句子 到 语法 结构 树 ， 并 标记 树 的 节点 为 动词 、 名 词 、 副 词 等 等 。 参考 Collobert 
(2011) 将 深度 学 习 应 用 到 语法 分 析 的 示例 。 男 一 个 例子 是 图 像 的 像素 级 分 割 ， 
将 每 一 个 像素 分 配 到 特定 类 别 。 例 如 ,深度 学 习 可 用 于 标注 航拍 照片 中 的 道路 
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位 置 (Mnih and Hinton, 2010)。 在 这 些 标注 型 的 任务 中 ,输出 的 结构 形式 不 
需要 和 输入 尽 可 能 相似 。 例 如 ， 在 为 图 片 添加 描述 的 任务 中 ,计算 机 程序 观察 
到 一 幅 图 ， 输 出 描述 这 幅 图 的 自然 语言 句子 (Kiros et al., 2014a,b; Mao et al., 
2014; Vinyals et al., 2015b; Donahue et al., 2014; Karpathy and Li, 2015; Fang 
et al., 2015; Xu et al., 2015)。 这 类 任务 被 称 为 结构 化 输出 任务 是 因为 输出 值 之 
间 内 部 紧密 相关 。 例 如 ， 为 图 片 添加 标题 的 程序 输出 的 单词 必须 组 合成 一 个 通 
顺 的 句子 。 








异常 检测 : 在 这 类 任务 中 ， 计 算 机 程序 在 一 组 事件 或 对 象 中 筛选 ， 并 标记 不 正 
常 或 非典 型 的 个 体 。 异 常 检测 任务 的 一 个 示例 是 信用 卡 欺 诈 检 测 。 通 过 对 你 的 
购买 习惯 建 模 ， 信 用 卡 公司 可 以 检测 到 你 的 卡 是 否 被 滥用 。 如 果 窃 贼 窃取 你 的 
信用 卡 或 信用 卡 信息 ， 穷 贼 采购 物品 的 分 布 通常 和 你 的 不 同 。 当 该 卡 发 生 了 不 
正常 的 购买 行为 时 ， 信 用 卡 公司 可 以 尽快 冻结 该 卡 以 防 欺诈 。 参 考 Chandola 
et al. (2009) 了 解 欺诈 检测 方法 。 








合成 和 采样 : 在 这 类 任务 中 ， 机 带 学 习 程 序 生成 一 些 和 训练 数据 相似 的 新 样本 。 
通过 机 带 学 习 ， 合 成 和 采样 可 能 在 媒体 应 用 中 非常 有 用 ， 可 以 避免 艺术 家 大 量 
昂贵 或 者 乏味 费时 的 手动 工作 。 例 如 ,视频 游戏 可 以 自动 生成 大 型 物体 或 风景 
的 纹理 ， 而 不 是 让 艺术 家 手动 标记 每 个 像素 (Luo et al., 2013)。 在 某 些 情况 下 ， 
我 们 希望 采样 或 合成 过 程 可 以 根据 给 定 的 输入 生成 一 些 特定 类 型 的 输出 。 例 如 ， 
在 语音 合成 任务 中 ， 我 们 提供 书写 的 句子 ， 要 求 程序 输出 这 个 句子 语音 的 音频 
波形 。 这 是 一 类 结构 化 输出 任务 ,但 是 多 了 每 个 输入 并 非 只 有 一 个 正确 输出 的 
条 件 ， 并 且 我 们 明确 希望 输出 有 很 多 变化 ， 这 可 以 使 结果 看 上 去 更 加 自然 和 真 
实 。 








缺失 值 填补 : 在 这 类 任务 中 ， 机 噩 学 习 算 法 给 定 一 个 新 样本 ze 及 "，z 中 某 些 
元 素 zi 缺失 。 算 法 必须 填补 这 些 缺 失 值 。 





AR: 在 这 类 任务 中 ， 机 天 学 习 算 法 的 输入 是 ， 干 净 样 本 ZE R” 经 过 未 知 损 
坏 过 程 后 得 到 的 损坏 样本 % € 及 "。 算 法 根据 损坏 后 的 样本 ae 预测 干净 的 样本 
Z， 或 者 更 一 般 地 预测 条 件 概率 分 布 p(z | z) 


密度 估计 或 概率 质量 函数 估计 : 在 密度 估计 问题 中 ， 机 带 学 习 算 法 学 习 函 数 
Pmodel : R” =} R, 其 中 Pmodel(£) 可 以 解释 成 样本 采样 空间 的 概率 密度 函数 ( 如 
果 x 是 连续 的 ) 或 者 概率 质量 函数 ( 如 果 x 是 离散 的 )。 要 做 好 这 样 的 任务 
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( 当 我 们 讨论 性 能 度量 P 时， 我 们 会 明确 定义 任务 是 什么 ), 算法 需要 学 习 观 测 
到 的 数据 的 结构 。 算 法 必须 知道 什么 情况 下 样本 聚集 出 现 ， 什 么 情况 下 不 太 可 
能 出 现 。 以 上 描述 的 大 多 数 任务 都 要 求学 习 算法 至 少 能 隐 式 地 捕获 概率 分 布 的 
结构 。 密 度 估计 可 以 让 我 们 显 式 地 捕获 该 分 布 。 原 则 上 ， 我们 可 以 在 该 分 布 上 
计算 以 便 解决 其 他 任务 。 例 如 ， 如 果 我 们 通过 密度 估计 得 到 了 概率 分 布 p(z2)， 
我 们 可 以 用 该 分 布 解决 缺失 值 填补 任务 。 如 果 x; 的 值 是 缺失 的 , 但 是 其 他 的 变 
量 值 si 已 知 ， 那 么 我 们 可 以 得 到 条 件 概率 分 布 ple: | 2_;)。 实 际 情况 中 ， 密 
度 估计 并 不 能 够 解决 所 有 这 类 问题 ， 因 为 在 很 多 情况 下 p(z) 是 难以 计算 的 。 


当然 ， 还 有 很 多 其 他 同类 型 或 其 他 类 型 的 任务 。 这 里 我 们 列举 的 任务 类 型 只 是 
用 来 介绍 机 器 学 习 可 以 做 哪些 任务 ， 并 非 严 格 地 定义 机 器 学 习 任 务 分 类 。 





5.1.2 ”性 能 度量 P 


为 了 评估 机 器 学 习 算 法 的 能 力 ， 我 们 必须 设计 其 性 能 的 定量 度量 。 通 常 性 能 度 
E P 是 特定 于 系统 执行 的 任务 T 而 言 的 。 

对 于 诸如 分 类 、 缺 失 输 入 分 类 和 转录 任务 ， 我 们 通常 度量 模型 的 准确 率 〈accu- 
racy )。 准 确 率 是 指 该 模型 输出 正确 结果 的 样本 比率 。 我 们 也 可 以 通过 错误 率 (error 
rate ) 得 到 相同 的 信息 。 错 误 率 是 指 该 模型 输出 错误 结果 的 样本 比率 。 我 们 通常 把 错 
误 率 称 为 0 一 1 损失 的 期 望 。 在 一 个 特定 的 样本 上 ， 如 果 结 果 是 对 的 ， 那么 0 一 1 损 
失 是 0; 否则 是 1。 但 是 对 于 密度 估计 这 类 任务 而 言 ， 度 量 准 确 率 ， 错 误 率 或 者 其 他 
类 型 的 0 一 1 损失 是 没有 意义 的 。 反 之 ， 我 们 必须 使 用 不 同 的 性 能 度量 ,使 模型 对 每 
个 样本 都 输出 一 个 连续 数值 的 得 分 。 最 常用 的 方法 是 输出 模型 在 一 些 样 本 上 概率 对 
数 的 平均 值 。 

通常 ， 我 们 会 更 加 关注 机 融 学 习 算 法 在 未 观测 数据 上 的 性 能 如 何 ， 因 为 这 将 决 
其 在 实际 应 用 中 的 性 能 。 因 此 ， 我们 使 用 测试 集 (test set) 数据 来 评估 系统 性 能 ， 
其 与 训练 机 器 学 习 系 统 的 训练 集 数据 分 开 。 

性 能 度量 的 选择 或 许 看 上 去 简单 且 客 观 ， 但 是 选择 一 个 与 系统 理想 表现 对 应 
的 性 能 度量 通常 是 很 难 的 。 

在 某 些 情况 下 ,这 是 因为 很 难 确定 应 该 度量 什么 。 例如， 在 执行 转录 任务 时 , 我 
们 是 应 该 度量 系统 转录 整个 序列 的 准确 率 ， 还 是 应 该 用 一 个 更 细 粒 度 的 指标 ， 对 序 
列 中 正确 的 部 分 元 素 以 正面 评价 ? 在 执行 回归 任务 时 ， 我 们 应 该 更 多 地 惩罚 频繁 犯 
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一 些 中 等 错误 的 系统 ， 还 是 较 少 犯错 但 是 犯 很 大 错误 的 系统 ?这 些 设计 的 选择 取决 
于 应 用 。 

还 有 一 些 情况 ， 我 们 知道 应 该 度量 哪些 数值 ， 但 是 度量 它们 不 太 现 实 。 这 种 情 
况 经 常 出 现在 密度 估计 中 。 很 多 最 好 的 概率 模型 只 能 隐 式 地 表示 概率 分 布 。 在 许多 
这 类 模型 中 ， 计 算 空间 中 特定 点 的 概率 是 不 可 行 的 。 在 这 些 情 况 下 ， 我 们 必须 设计 
一 个 仍然 对 应 于 设计 对 象 的 替代 标准 ， 或 者 设计 一 个 理想 标准 的 良好 近似 。 


5.1.3 Z E 


根据 学 习 过 程 中 的 不 同 经 验 ， 机 器 学 习 算 法 可 以 大 致 分 类 为 无 监督 (unsuper- 
vised ) 算法 和 监督 (supervised ) 算法 。 

本 书 中 的 大 部 分 学 习 算 法 可 以 被 理解 为 在 整个 数据 集 (dataset) 上 获取 经 验 。 
数据 集 是 指 很 多 样本 组 成 的 集合 ， 如 第 5.1.1 节 所 定义 的 。 有 时 我 们 也 将 样本 称 为 数 
据点 (data point )。 

Iris ( 萝 尾 花卉 ) 数据 集 (Fisher, 1936) 是 统计 学 家 和 机 器 学 习 研 究 者 使 用 了 很 
久 的 数据 集 。 它 是 150 个 音 尾 花 开 植物 不 同 部 分 测量 结果 的 集合 。 每 个 单独 的 植物 
对 应 一 个 样本 。 每 个 样本 的 特征 是 该 植物 不 同 部 分 的 测量 结果 : ER BE A SSE 
度 、 花 办 长 度 和 花瓣 宽度 。 这 个 数据 集 也 记录 了 每 个 植物 属于 什么 品种 ， 其 中 共有 
三 个 不 同 的 品种 。 

无 监督 学 习 算 法 (unsupervised learning algorithm ) 训练 含有 很 多 特征 的 数据 
集 ， 然 后 学 习 出 这 个 数据 集 上 有 用 的 结构 性 质 。 在 深度 学 习 中 ， 我 们 通常 要 学 习 生 
成 数据 集 的 整个 概率 分 布 ， 显 式 地 ， 比 如 密度 估计 ， 或 是 隐 式 地 ， 比 如 合成 或 去 噪 。 
还 有 一 些 其 他 类 型 的 无 监督 学 习 任 务 ， 例 如 聚 类 ， 将 数据 集 分 成 相似 样本 的 集合 。 

监督 学 习 算 法 ( supervised learning algorithm ) 训练 含有 很 多 特征 的 数据 集 , 不 
过 数据 集中 的 样本 都 有 一 个 标签 (label ) 或 目标 (target). PUN, Iris 数据 集注 明 
了 每 个 高 尾 花 齐 样本 属于 什么 品种 。 监 督学 习 算法 通过 研究 Iris 数据 集 ， 学 习 如 何 
根据 测量 结果 将 样本 划分 为 三 个 不 同 品 种 。 

大 致 说 来 ,无 监督 学 习 涉 及 到 观察 随机 向 量 x 的 好 几 个 样本 ,试图 显 式 或 隐 式 
地 学 习 出 概率 分 布 p(x)， 或 者 是 该 分 布 一 些 有 意思 的 性 质 ; 而 监督 学 习 包 含 观察 随 
机 向 量 x 及 其 相关 联 的 值 或 向 量 y, 然后 从 x 预测 y, 通常 是 估计 p(y | x). 术语 监 
督学 习 (supervised learning ) 源 自 这 样 一 个 视角 ， 教员 或 者 老师 提供 目标 y 给 机 带 
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学 习 系 统 , 指导 其 应 该 做 什么 。 在 无 监督 学 习 中 , 没有 教员 或 者 老师 , 算法 必须 学 会 
在 没有 指导 的 情况 下 理解 数据 。 

无 监督 学 习 和 监督 学 习 不 是 严格 定义 的 术语 。 它 们 之 间 界 线 通 常 是 模糊 的 。 很 
多 机 融 学 习 技 术 可 以 用 于 这 两 个 任务 。 例 如 ， 概 率 的 链 式 法 则 表明 对 于 向 量 x ER”, 
联合 分 布 可 以 分 解 成 


n 


p(x) = Nes | X1,- ,Xi_1). (5.1) 


i=l 





该 分 解 意味 着 我 们 可 以 将 其 拆 分 成 n 个 监督 学 习 问 题 ， 来 解决 表面 上 的 无 监督 学 习 
2D(z)。 另 外 ,我 们 求解 监督 学 习 问 题 p(y |x) 时 ， 也 可 以 使 用 传统 的 无 监督 学 习 策 略 
学 习 联 合 分 布 p(x,y)， 然 后 推断 
p(x, y) 
= : 5.2 
be (5.2) 
尽管 无 监督 学 习 和 监督 学 习 并 非 完全 没有 交集 的 正式 概念 ， 它 们 确实 有 助 于 粗略 分 
类 我 们 研究 机 器 学 习 算 法 时 遇 到 的 问题 。 传 统 地 ， 人 们 将 回归 、 分 类 或 者 结构 化 输 
出 问题 称 为 监督 学 习 。 支 持 其 他 任务 的 密度 估计 通常 被 称 为 无 监督 学 习 。 

学 习 范 式 的 其 他 变种 也 是 有 可 能 的 。 例 如 ， 半 监督 学 习 中 ， 一 些 样本 有 监督 目 
标 ， 但 其 他 样本 没有 。 在 多 实例 学 习 中 ,样本 的 整个 集合 被 标记 为 含有 或 者 不 含有 
该 类 的 样本 ， 但 是 集合 中 单独 的 样本 是 没有 标记 的 。 参 考 Kotzias et al. (2015) 了 解 
最 近 深 度 模 型 进行 多 实例 学 习 的 示例 。 

有 些 机 器 学 习 算 法 并 不 是 训练 于 一 个 固定 的 数据 集 上 。 例 如 ， 强 化 学 习 〈rein- 
forcement learning ) 算法 会 和 环境 进行 交互 ， 所 以 学 习 系 统 和 它 的 训练 过 程 会 有 反 
馈 回 路 。 这 类 算法 超出 了 本 书 的 范畴 。 请 参考 Sutton and Barto (1998) 或 Bertsekas 
and Tsitsiklis (1996) 了 解 强化 学 习 相 关 知 识 ，Mnih and Kavukcuoglu (2013) 介绍 了 
强化 学 习 方 同 的 深度 学 习 方 法 。 

大 部 分 机 品 学 习 算 法 简单 地 训练 于 一 个 数据 集 上 。 数 据 集 可 以 用 很 多 不 同方 式 
来 表示 。 在 所 有 的 情况 下 ， 数 据 集 都 是 样本 的 集合 ， 而 样本 是 特征 的 集合 。 

表示 数据 集 的 常用 方法 是 设计 和 矩阵 (design matrix )。 设 计 德 阵 的 每 一 行 包含 
一 个 不 同 的 样本 。 每 一 列 对 应 不 同 的 特征 。 例如 ， Tris 数据 集 包 含 150 个 样本 ， 
个 样本 有 4 个 特征 。 这 意味 着 我 们 可 以 将 该 数据 集 表示 为 设计 矩阵 X e R5, H 
HX 表示 第 i 个 植物 的 葛 片 长 度 ，X,。 表示 第 i 个 植物 的 莹 片 宽度 等 等 。 我 们 在 
本 书 中 描述 的 大 部 分 学 习 算 法 都 是 讲述 它们 是 如 何 运行 在 设计 和 矩阵 数据 集 上 的 。 
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当然 ， 每 一 个 样本 都 能 表示 成 向 量 ， 并 且 这 些 向 量 的 大 小 相同 ， 才 能 将 一 个 数 
据 集 表示 成 设计 抢 阵 。 这 一 点 并 非 永远 可 能 。 例 如 ， 你 有 不 同 宽 度 和 高 度 的 照片 的 
集合 ， 那 么 不 同 的 照片 将 会 包含 不 同 数量 的 像素 。 因 此 不 是 所 有 的 照片 都 可 以 表示 
成 相同 长 度 的 向 量 。 第 9.7 节 和 第 十 章 将 会 介绍 如 何 处 理 这 些 不 同类 型 的 异 构 数据 。 
在 上 述 这 类 情况 下 ， 我 们 不 会 将 数据 集 表示 成 m 行 的 矩阵 ， 而 是 表示 成 m 个 元 素 
的 结合 : {2 , 23,... ,zz("}。 这 种 表示 方式 意味 着 样本 向 量 zx 和 cl 可 以 有 不 
同 的 大 小 。 

在 监督 学 习 中 ,样本 包含 一 个 标签 或 目标 和 一 组 特征 。 例 如 ， 我 们 希望 使 用 学 
习 算 法 从 照片 中 识别 对 象 。 我 们 需要 明确 哪些 对 象 会 出 现在 每 张 照片 中 。 我 们 或 许 
会 用 数字 编码 表示 ， 如 0 表示 人 、1 表示 车 2 表示 猫 等 等 。 通常 在 处 理 包含 观 测 特 
征 的 设计 和 矩阵 X 的 数据 集 时 ， 我 们 也 会 提供 一 个 标签 向 量 y， 其 中 yi 表示 样本 i 
的 标签 。 

当然 ， 有 时 标签 可 能 不 止 一 个 数 。 例 如 ， 如 果 我 们 想 要 训练 语音 模型 转录 整个 
句子 ， 那 么 每 个 句子 样本 的 标签 是 一 个 单词 序列 。 

正如 监督 学 习 和 无 监督 学 习 没 有 正式 的 定义 ， 数 据 集 或 者 经 验 也 没有 严格 的 区 
分 。 这 里 介绍 的 结构 涵盖 了 大 多 数 情况 ， 但 始终 有 可 能 为 新 的 应 用 设计 出 新 的 结构 。 

















5.1.4 F: 线性 回归 


我 们 将 机 带 学 习 算 法 定义 为 ,通过 经 验 以 提高 计算 机 程序 在 某 些 任务 上 性 能 的 
算法 。 这 个 定义 有 点 抽象 。 为 了 使 这 个 定义 更 具体 点 ， 我 们 展示 一 个 简单 的 机 器 学 
习 示 例 : 线性 回归 (linear regression )。 当 我 们 介绍 更 多 有 助 于 理解 机 器 学 习 特 性 的 
概念 时 ， 我 们 会 反复 回顾 这 个 示例 。 

顾名思义 ,线性 回归 解决 回归 问题 。 换 言 之 , 我 们 的 目标 是 建立 一 个 系统 ,将 问 
量 ze R” 作为 输入 ,预测 标量 y E€ R 作为 输出 。 线 性 回归 的 输出 是 其 输入 的 线性 函 
数 。 令 9 表示 模型 预测 y 应 该 取 的 值 。 我 们 定义 输出 为 


ĝ = w' z, (5.3) 











其 中 we R” ft BR (parameter ) 向 量 。 

参数 是 控制 系统 行为 的 值 。 在 这 种 情况 下 ，w; 是 系数 ， 会 和 特征 x; 相 乘 之 
后 全 部 相 加 起 来 。 我 们 可 以 将 w 看 作 是 一 组 决定 每 个 特征 如 何 影 响 预 测 的 权重 
(weight )。 如 果 特 征 2, 对 应 的 权重 w BIEN, 那么 特征 的 值 增加 ， 我们 的 预测 值 0 
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也 会 增加 。 如 果 特 征 c, 对 应 的 权重 w; 是 负 的 ， 那 么 特征 的 值 减少 ， 我 们 的 预测 值 
乡 也 会 减少 。 如 果 特 征 权 重 的 大 小 很 大 , 那么 它 对 预测 有 很 大 的 影响 ;如果 特征 权重 
的 大 小 是 零 ， 那 么 它 对 预测 没有 影响 。 

因此 ， 我 们 可 以 定义 任务 T: 通过 输出 = wz 从 z 预测 y。 接 下 来 我 们 需要 
定义 性 能 度量 一 一 P。 

假设 我 们 有 m 个 输入 样本 组 成 的 设计 怎 阵 ， 我 们 不 用 它 来 训练 模型 ， 而 是 评 
佑 模型 性 能 如 何 。 我 们 也 有 每 个 样本 对 应 的 正确 值 y 组 成 的 回归 目标 向 量 。 因 为 这 
个 数据 集 只 是 用 来 评估 性 能 ， 我 们 称 之 为 测试 集 (test set). FAA Wii ee 
阵 记 作 XS ， 回 归 目 标 向 量 记 作 yt, 

度量 模型 性 能 的 一 种 方法 是 计算 模型 在 测试 集 上 的 均 方 误差 ( mean squared 
error )。 如 果 “表示 模型 在 测试 集 上 的 预测 值 ， 那 么 均 方 误差 表示 为 : 





1 
MSE = — X (gM? — y. 5.4 
test Ta y ); (5.4) 


直观 上 ， 当 gles) = ytt 时 ， 我 们 会 发 现 误差 降 为 0。 我 们 也 可 以 看 到 


a (test) y(test) 4 


1 
MSEtest | y (5.5) 
m 











2 bi 

所 以 当 预 测 值 和 目标 值 之 间 的 欧 几 里 得 距离 增加 时 ， 误 差 也 会 增加 。 
为 了 构建 一 个 机 器 学 习 算 法 ， 我 们 需要 设计 一 个 算法 ， 通 过 观察 训练 集 

(XO) yltrain)) 获得 经 验 ， 减少 MSEtost 以 改进 权重 w。 一 种 直观 方式 (RN 

将 在 后 续 的 第 5.5.1 节 说 明 其 合法 性 ) 是 最 小 化 训练 集 上 的 均 方 误差 ， 即 MSEtrain。 
最 小 化 MSEuain， 我 们 可 以 简单 地 求解 其 导数 为 0 的 情况 : 

















VwMSEtrain = 0 (5.6) 
1 : S 2 
= ee | eo = ytin) =0 (5.7) 
m 2 
1 (train) trai $ 
Joy |x w- yt] = 9 (5.8) 
m 2 
trai i T trai 5 
= Vu (xi rain) yy ES T (x rain) ay _ yn) =Í (5.9) 


E V, (wr x(train)T y(train),,,, _ 2w 和 train) (train) J yeye = 0 (5.10) 
=" 9 x (train) T x (train) w— 2 (train) T yftrain) 一 0 (5.11) 
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=> w= | XCrein)T (train) (5.12) 


通过 式 (5.12) 给 出 解 的 系统 方程 被 称 为 正规 方程 (normal equation ) 。 计 算 
式 (5.12) 构成 了 一 个 简单 的 机 器 学 习 算 法 。 图 5.1 展示 了 线性 回归 算法 的 使 用 示例 。 





Linear regression example js Optimization of w 
2 0.50 
1 = 0.45 
= 0.40 

> 0 = 
2 0.35 
=l 0.30 
-2 0.25 
73) 0.20 
一 1.0 一 0.5 0.0 05 1.0 0.5 1.0 1.5 
v1 w1 














图 5.1: 一 个 线性 回归 问题 ， 其 中 训练 集 包括 十 个 数据 点 ， 每 个 数据 点 包含 一 个 特征 。 因 为 只 有 一 
个 特征 ， 权 重 向 量 w 也 只 有 一 个 要 学 习 的 参数 wio (£) 我 们 可 以 观察 到 线性 回归 学 习 wa ， 从 而 
使 得 直线 y = wie 能 够 尽量 接近 穿 过 所 有 的 训练 点 。( 右 ) 标注 的 点 表示 由 正规 方程 学 习 到 的 wr 
的 值 ， 我 们 发 现 它 可 以 最 小 化 训练 集 上 的 均 方 误差 。 
































值得 注意 的 是 ， 术 语 线 性 回归 (linear regression ) 通常 用 来 指 稍微 复杂 一 些 ， 
附加 额外 参数 RET b) 的 模型 。 在 这 个 模型 中 ， 


Y=w' z+b, (5.13) 


因此 从 参数 到 预测 的 映射 仍 是 一 个 线性 函数 ， 而 从 特征 到 预测 的 映射 是 一 个 仿 射 函 
数 。 如 此 扩展 到 仿 射 函数 意味 着 模型 预测 的 曲线 仍然 看 起 来 像 是 一 条 直线 ， 只 是 这 
条 直线 没 必要 经 过 原点 。 除 了 通过 添加 偏 置 参数 5，， 我 们 还 可 以 使 用 仅 含 权重 的 模 
型 ,但 是 z 需要 增加 一 项 永远 为 1 的 元 素 。 对 应 于 额外 1 的 权重 起 到 了 偏 置 参数 的 
作用 。 当 我 们 在 本 书 中 提 到 仿 射 函数 时 ， 我 们 会 经 常 使 用 术语 “线性 ”。 

截 距 项 b 通常 被 称 为 仿 射 变换 的 偏 置 (bias) 参数 。 这 个 术语 的 命名 源 自 该 变 
换 的 输出 在 没有 任何 输入 时 会 偏 移 5。 它 和 统计 偏差 中 指 代 统 计 估计 算法 的 某 个 量 的 
期 望 估计 偏离 真实 值 的 意思 是 不 一 样 的 。 

线性 回归 当然 是 一 个 极其 简单 且 有 局 限 的 学 习 算 法 ， 但 是 它 提供 了 一 个 说 明 学 
习 算法 如 何 工作 的 例子 。 在 接 下 来 的 小 节 中 ,我 们 将 会 介绍 一 些 设计 学 习 算法 的 基 
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本 原则 ， 并 说 明 如 何 使 用 这 些 原则 来 构建 更 复杂 的 学 习 算 法 。 


5.2 容量、 过 拟 合 和 欠 拟 合 


机 顺 学 习 的 主要 挑战 是 我 们 的 算法 必须 能 够 在 先前 未 观测 的 新 输入 上 表现 良好 ， 
而 不 只 是 在 训练 集 上 表现 良好 。 在 先前 未 观测 到 的 输入 上 表现 良好 的 能 力 被 称 为 泛 
化 〈generalization )。 

通常 情况 下 ， 当 我 们 训练 机 器 学 习 模 型 时 ， 我 们 可 以 使 用 某 个 训练 集 ， 在 训练 
集 上 计算 一 些 被 称 为 训练 误差 ( training error) 的 度量 误差 ， 目 标 是 降低 训练 误差 。 
目前 为 止 , 我 们 讨论 的 是 一 个 简单 的 优化 问题 。 机 器 学 习 和 优化 不 同 的 地 方 在 于 , 我 
们 也 希望 泛 化 误差 ( generalization error ) ( 也 被 称 为 测试 误差 ( test error ) ) 很 低 。 
泛 化 误差 被 定义 为 新 输入 的 误差 期 望 。 这 里 ， 期 望 的 计算 基于 不 同 的 可 能 输入 ， 这 
些 输入 采 自 于 系统 在 现实 中 遇 到 的 分 布 。 

通常 ， 我 们 度量 模型 在 训练 集中 分 出 来 的 测试 集 (test set) 样本 上 的 性 能 ， 来 
评估 机 需 学 习 模型 的 泛 化 误差 。 

在 我 们 的 线性 回归 示例 中 ， 我 们 通过 最 小 化 训练 误差 来 训练 模型 ， 


1 
mm (train) 


但 是 我 们 真正 关注 的 是 测试 误差 ty |] XM) wy — yt 

当 我 们 只 能 观测 到 训练 集 时 ， 我 们 如 何 才能 影响 测试 集 的 性 能 呢 ? 统计 学 习 理 
论 (statistical learning theory ) 提供 了 一 些 答案 。 如 果 训 练 集 和 测试 集 的 数据 是 任 
意 收集 的 ， 那 么 我 们 能 够 做 的 确实 很 有 限 。 如 果 我 们 可 以 对 训练 集 和 测试 集 数 据 的 
收集 方式 有 些 假设 ,那么 我 们 能 够 对 算法 做 些 改进 。 

训练 集 和 测试 集 数据 通过 数据 集 上 被 称 为 数据 生成 过 程 (data generating pro- 
cess) 的 概率 分 布 生成 。 通 常 ， 我 们 会 做 一 系列 被 统称 为 独立 同 分 布 假设 〈i.i.d. 
assumption ) 的 假设 。 该 假设 是 说 ， 每 个 数据 集中 的 样本 都 是 彼此 相互 独立 的 (in- 
dependent )， 并 且 训 练 集 和 测试 集 是 同 分 布 的 (identically distributed )， 采 样 自 相 
同 的 分 布 。 这 个 假设 使 我 们 能 够 在 单个 样本 的 概率 分 布 描述 数据 生成 过 程 。 然 后 相 
同 的 分 布 可 以 用 来 生成 每 一 个 训练 样本 和 每 一 个 测试 样本 。 我 们 将 这 个 共享 的 潜在 
分 布 称 为 数据 生成 分 布 (data generating distribution )， 记 作 pasta。 这 个 概率 框架 
和 独立 同 分 布 假设 允许 我 们 从 数学 上 研究 训练 误差 和 测试 误差 之 间 的 关系 。 








yten) ay = ytan) : 
2 














(5.14) 
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我 们 能 观察 到 训练 误差 和 测试 误差 之 间 的 直接 联系 是 ， 随 机 模型 训练 误差 的 期 
望 和 该 模型 测试 误差 的 期 望 是 一 样 的 。 假 设 我 们 有 概率 分 布 p(z,y)， 从 中 重复 采样 
生成 训练 集 和 测试 集 。 对 于 某 个 固定 的 w， 训 练 集 误差 的 期 望 恰好 和 测试 集 误差 的 
期 望 一 样 ， 这 是 因为 这 两 个 期 望 的 计算 都 使 用 了 相同 的 数据 集 生 成 过 程 。 这 两 种 情 
况 的 唯一 区 别 是 数据 集 的 名 字 不 同 。 

当然 ， 当 我 们 使 用 机 融 学 习 算 法 时 ,我 们 不 会 提前 固定 参数 ， 然 后 从 数据 集中 采 
样 。 我 们 会 在 训练 集 上 采样 ， 然 后 挑选 参数 去 降低 训练 集 误 差 ， 然 后 再 在 测试 集 上 
采样 。 在 这 个 过 程 中 ， 测 试 误差 期 望 会 大 于 或 等 于 训练 误差 期 望 。 以 下 是 决定 机 带 
学 习 算 法 效果 是 否 好 的 因素 : 


1. 降低 训练 误差 。 
2. 缩小 训练 误差 和 测试 误差 的 差距 。 


这 两 个 因素 对 应 机 器 学 习 的 两 个 主要 挑战 : 欠 拟 合 (underfitting ) 和 过 拟 合 
(overfitting )。 欠 拟 合 是 指 模型 不 能 在 训练 集 上 获得 足够 低 的 误差 。 而 过 拟 合 是 指 训 
练 误差 和 和 测试 误差 之 间 的 差距 太 大 。 

通过 调整 模型 的 容量 (capacity )， 我 们 可 以 控制 模型 是 否 偏 向 于 过 拟 合 或 者 欠 
拟 合 。 通 俗 地 ， 模 型 的 容量 是 指 其 拟 合 各 种 函数 的 能 力 。 容 量 低 的 模型 可 能 很 难 拟 
合 训 练 集 。 容 量 高 的 模型 可 能 会 过 拟 合 ， 因 为 记 住 了 不 适用 于 测试 集 的 训练 集 性 质 。 

一 种 控制 训练 算法 容量 的 方法 是 选择 假设 空间 (hypothesis space )， 即 学 习 算 
法 可 以 选择 为 解决 方案 的 函数 集 。 例 如 ， 线 性 回归 函数 将 关于 其 输入 的 所 有 线性 隆 
数 作为 假设 空间 。 广义 线性 回归 的 假设 空间 包括 多 项 式 函 数 ， 而 非 仅 有 线性 函数 。 这 
样 做 就 增加 了 模型 的 容量 。 

一 次 多 项 式 提供 了 我 们 已 经 熟悉 的 线性 回归 模型 ， 其 预测 如 下 : 


























9 =b+ wrz. (5.15) 


通过 引入 a? 作为 线性 回归 模型 的 另 一 个 特征 ， 我 们 能 够 学 习 关 于 z 的 二 次 函数 模 





Gg = b+ wir + wr’. (5.16) 


尽管 该 模型 是 输入 的 二 次 函数 , 但 输出 仍 是 参数 的 线性 函数 。 因 此 我 们 仍然 可 以 用 正 
规 方程 得 到 模型 的 闭 解 。 我 们 可 以 继续 添加 z 的 更 高 客 作 为 额外 特征 ， 例 如 下 面 的 
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9 次 多 项 式 : 


g=b+ > wir. (5.17) 
i=1 
当 机 器 学习 算 法 的 容量 适合 于 所 执行 任务 的 复杂 度 和 所 提供 训练 数据 的 数量 时 ， 
算法 效果 通常 会 最 佳 。 容 量 不 足 的 模型 不 能 解决 复杂 任务 。 容 量 高 的 模型 能 够 解决 
复杂 的 任务 ， 但 是 当 其 容量 高 于 任务 所 需 时 ， 有 可 能 会 过 拟 合 。 
图 5.2 展 示 了 这 个 原理 的 使 用 情况 。 我 们 比较 了 线性 ， 二 次 和 9 次 预测 器 拟 合 真 
实 二 次 函数 的 效果 。 线 性 函数 无 法 刻画 真实 函数 的 曲率 ， 所 以 欠 拟 合 。9 次 函数 能 够 
表示 正确 的 函数 ， 但 是 因为 训练 参数 比 训练 样本 还 多 ， 所 以 它 也 能 够 表示 无 限 多 个 
刚好 穿越 训练 样本 点 的 很 多 其 他 函数 。 我 们 不 太 可 能 从 这 很 多 不 同 的 解 中 选 出 一 个 
泛 化 良好 的 。 在 这 个 问题 中 ， 二 次 模型 非常 符合 任务 的 真实 结构 ， 因 此 它 可 以 很 好 
地 泛 化 到 新 数据 上 。 











Underfitting Appropriate capacity Overfitting 


To To To 












































图 5.2: 我 们 用 三 个 模型 拟 合 了 这 个 训练 集 的 样本 。 训 练 数据 是 通过 随机 抽取 z 然后 用 二 次 函数 确 
定性 地 生成 y 来 合成 的 。( 左 ) 用 一 个 线性 函数 拟 合 数 据 会 导致 欠 拟 合 一 一 它 无 法 捕捉 数据 中 的 曲 
率 信息 。( 中 ) 用 二 次 函数 拟 合 数据 在 未 观察 到 的 点 上 泛 化 得 很 好 。 这 并 不 会 导致 明显 的 从 拟 合 或 
者 过 拟 合 。( 右 ) 一 个 9 阶 的 多 项 式 拟 合 数据 会 导致 过 拟 合 。 在 这 里 我 们 使 用 Moore-Penrose H 
逆 来 解 这 个 欠 定 的 正规 方程 。 得 出 的 解 能 够 精确 地 穿 过 所 有 的 训练 点 ， 但 可 惜 我 们 无 法 提取 有 效 
的 结构 信息 。 在 两 个 数据 点 之 间 它 有 一 个 真实 的 函数 所 不 包含 的 深谷 。 在 数据 的 左 侧 ， 它 也 会 急 
剧 增长 ， 而 在 这 一 区 域 真 实 的 函数 却 是 下 降 的 。 

























































































目前 为 止 , 我 们 探讨 了 通过 改变 输入 特征 的 数目 和 加 入 这 些 特征 对 应 的 参数 , 改 
变 模型 的 容量 。 事 实 上 ， 还 有 很 多 方法 可 以 改变 模型 的 容量 。 容 量 不 仅 取决 于 模型 
的 选择 。 模 型 规定 了 调整 参数 降低 训练 目标 时 ， 学 习 算 法 可 以 从 哪些 函数 族 中 选择 
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函数 。 这 被 称 为 模型 的 表示 容量 (representational capacity )。 在 很 多 情况 下 ， 从 这 
些 聊 数 中 挑选 出 最 优 函数 是 非常 困难 的 优化 问题 。 实 际 中 ， 学 习 算 法 不 会 真 的 找到 
最 优 函 数 ， 而 仅 是 找到 一 个 可 以 大 大 降低 训练 误差 的 函数 。 额 外 的 限制 因素 ， 比 如 
优化 算法 的 不 完美 ， 意 味 着 学 习 算 法 的 有效 容量 (effective capacity ) 可 能 小 于 模型 
族 的 表示 容量 。 

提高 机 器 学 习 模型 泛 化 的 现代 思想 可 以 追溯 到 早 在 托 勒 密 时 期 的 哲学 家 的 思 
想 。 许 多 早期 的 学 者 提出 一 个 简约 原则 ， 现 在 广泛 被 称 为 奥 卡 姆 剃刀 ( Occam’s 
razor ) (c. 1287-1387 )。 该 原则 指出 ， 在 同样 能 够 解释 已 知 观测 现象 的 假设 中 ， 我 们 
应 该 挑选 “最 简单 ”的 那 一 个 。 这 个 想法 是 在 20 世纪 ， 由 统计 学 习 理论 创始 人 形式 
化 并 精确 化 的 (Vapnik and Chervonenkis, 1971; Vapnik, 1982; Blumer et al., 1989; 
Vapnik, 1995)。 

统计 学 习 理 论 提 供 了 量化 模型 容量 的 不 同方 法 。 在 这 些 中 , 最 有 名 的 是 Vapnik- 
Chervonenkis 维度 ( Vapnik-Chervonenkis dimension, VC )。VC 维度 量 二 元 分 类 
器 的 容量 。VC 维 定义 为 该 分 类 器 能 够 分 类 的 训练 样本 的 最 大 数目 。 假 设 存在 m 个 
不 同 z 点 的 训练 集 ， 分 类 器 可 以 任意 地 标记 该 m 个 不 同 的 xz 点 ，VC 维 被 定义 为 m 
的 最 大 可 能 值 。 

量化 模型 的 容量 使 得 统计 学 习 理 论 可 以 进行 量化 预测 。 统 计 学 习 理 论 中 最 重要 
的 结论 阐述 了 训练 误差 和 泛 化 误差 之 间 差 异 的 上 界 随 着 模型 容量 增长 而 增长 ， 但 
随 着 训练 样本 增多 而 下 降 (Vapnik and Chervonenkis, 1971; Vapnik, 1982; Blumer 
et al., 1989; Vapnik, 1995). 这 些 边界 为 机 器 学 习 算 法 可 以 有 效 解决 问题 提供 了 理论 
验证 ， 但 是 它们 很 少 应 用 于 实际 中 的 深度 学 习 算法 。 一 部 分 原因 是 边界 太 松 ， 另 一 
部 分 原因 是 很 难 确定 深度 学 习 算 法 的 容量 。 由 于 有 效 容量 受 限 于 优化 算法 的 能 力 ， 
确定 深度 学 习 模 型 容量 的 问题 特别 困难 。 而 且 对 于 深度 学 习 中 的 一 般 非 凸 优 化 问题 ， 
我 们 只 有 很 少 的 理论 分 析 。 

我 们 必须 记 住 虽然 更 简单 的 孔 数 更 可 能 泛 化 ( 训练 误差 和 测试 误差 的 差距 小 )， 
但 我 们 仍然 需要 选择 一 个 充分 复杂 的 假设 以 达到 低 的 训练 误差 。 通常 ， 当 模型 容量 
上 逢 时， 训练 误 差 会 下 降 ， 直 到 其 渐 近 最 小 可 能 误差 〈 假 设 误差 度量 有 最 小 值 )。 通 
常 ， 泛 化 误差 是 一 个 关于 模型 容量 的 U een. WA 5.3 所 示 。 

为 考虑 容量 任意 高 的 极端 情况 ， 我 们 介绍 非 参数 (non-parametric) 模型 的 概 
念 。 至 此 ,我们 只 探讨 过 参数 模型 ， 例 如 线性 回归 。 参 数 模 型 学 习 到 的 函数 在 观测 新 
数据 前 ， 参 数 是 有 限 且 固定 的 向 量 。 非 参数 模型 没有 这 些 限 甫 
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— - Training error 
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图 5.3: 容量 和 误差 之 间 的 典型 关系 。 训 练 误差 和 测试 误差 表现 得 非常 不 同 。 在 图 的 左 端 ， 训 练 误 
差 和 泛 化 误差 都 非常 高 。 这 是 欠 拟 合 机 制 (underfitting regime )。 当 我 们 增加 容量 时 , 训练 误差 减 
小 , 但 是 训练 误差 和 泛 化 误差 之 间 的 间距 却 不 断 扩 大 。 最 终 ， 这 个 间距 的 大 小 超过 了 训练 误差 的 下 
降 ， 我 们 进入 到 了 过 拟 合 机 制 (overfitting regime )， 其 中 容量 过 大 ， 超 过 了 最 佳 容 量 (optimal 
capacity ). 











有 时 ， 非 参数 模型 仅 是 一 些 不 能 实际 实现 的 理论 抽象 ( 比如 搜索 所 有 可 能 概率 
分 布 的 算法 )。 然 而 ,我 们 也 可 以 设计 一 些 实用 的 非 参 数 模型 ， 使 它们 的 复杂 度 和 训 
练 集 大 小 有 关 。 这 种 算法 的 一 个 示例 是 最 近邻 回归 (nearest neighbor regression )。 
不 像 线 性 回归 有 固定 长 度 的 向 量 作 为 权重 ， 最 近邻 回归 模型 存储 了 训练 集中 所 有 的 
XM yy。 当 需 要 为 测试 点 z 分 类 时 ， 模 型 会 查询 训练 集中 离 该 点 最 近 的 点 ， 并 返回 
相关 的 回归 目标 。 换 言 之 , G=y 其 中 i = arg min |X; 一 zl。 该 算法 也 可 以 扩展 
mM DL? 范 数 以 外 的 距离 度量 , 例如 学 成 距离 度量 (Goldberger et al., 2005)。 如 果 人 允许 
该 算法 通过 平均 X. 中 所 有 邻近 的 向 量 对 应 的 y; 来 打破 联系 ,那么 该 算法 会 在 任意 
回归 数据 集 上 达到 最 小 可 能 的 训练 误差 ( 如 果 存 在 两 个 相同 的 输入 对 应 不 同 的 输出 ， 
那么 训练 误差 可 能 会 大 于 零 )。 

最 后 ， 我 们 也 可 以 将 参数 学 习 算 法 舰 入 男 一 个 增加 参数 数目 的 算法 来 创建 非 参 
数学 习 算 法 。 例 如 ， 我 们 可 以 想象 这 样 一 个 算法 ， 外 层 循环 调整 多 项 式 的 次 数 ， 内 
层 循 环 通过 线性 回归 学 习 模 型 。 

理想 模型 假设 我 们 能 够 预先 知道 生成 数据 的 真实 概率 分 布 。 然 而 这 样 的 模型 仍 
然 会 在 很 多 问题 上 发 生 一 些 错 误 ， 因 为 分 布 中 仍然 会 有 一 些 噪声 。 在 监督 学 习 中 , 从 
z 到 y 的 映射 可 能 内 在 是 随机 的 ,或 者 y 可 能 是 其 他 变量 (包括 z 在 内 ) 的 确定 性 
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函数 。 从 预先 知道 的 真实 分 布 p(z,y) 预测 而 出 现 的 误差 被 称 为 贝 叶 斯 误差 ( Bayes 
error Jo 

训练 误差 和 泛 化 误差 会 随 训练 集 的 大 小 发 生变 化 。 泛 化 误差 的 期 望 从 不 会 因 训 
练 样本 数目 的 增加 而 增加 。 对 于 非 参数 模型 而 言 ， 更 多 的 数据 会 得 到 更 好 的 泛 化 能 
力 ， 直 到 达到 最 佳 可 能 的 泛 化 误差 。 任 何 模 型 容量 小 于 最 优 容量 的 固定 参数 模型 会 
渐 近 到 大 于 贝 叶 斯 误差 的 误差 值 。 如 图 5.4 所 示 。 值 得 注意 的 是 ， 具 有 最 优 容量 的 模 
型 仍然 有 可 能 在 训练 误差 和 泛 化 误差 之 间 存 在 很 大 的 差距 。 在 这 种 情况 下 ， 我 们 可 
以 通过 收集 更 多 的 训练 样本 来 缩小 差距 。 








5.2.1 ”没有 免费 午餐 定理 


学 习 理论 表明 机 器 学 习 算法 能 够 在 有 限 个 训练 集 样本 中 很 好 地 泛 化 。 这 似乎 韦 
背 一 些 基本 的 逻辑 原则 。 归 纳 推理 ， 或 是 从 一 组 有 限 的 样本 中 推断 一 般 的 规则 ， 在 
逻辑 上 不 是 很 有 效 。 为 了 逻辑 地 推 电 一 个 规则 去 描述 集合 中 的 元 素 ， 我 们 必须 具有 
集合 中 每 个 元 素 的 信息 。 

在 一 定 程度 上 上 ， 机 器 学 习 仅 通过 概率 法 则 就 可 以 避免 这 个 问题 ， 而 无 需 使 用 纯 
逻辑 推理 整个 确定 性 法 则 。 机 器 学 习 保证 找到 一 个 在 所 关注 的 大 多 数 样本 上 可 能 
确 的 规则 。 

可 惜 ， 即 使 这 样 也 不 能 解决 整个 问题 。 机 器 学 习 的 没有 免费 午餐 定理 (no free 
lunch theorem ) 表明 ， 在 所 有 可 能 的 数据 生成 分 布 上 平均 之 后 ， 每 一 个 分 类 算法 在 
未 事先 观测 的 点 上 都 有 相同 的 错误 率 。 换言之 , 在 某 种 意义 上 , 没有 一 个 机 器 学 习 算 
法 总 是 比 其 他 的 要 好 。 我 们 能 够 设想 的 最 先进 的 算法 和 简单 地 将 所 有 点 归 为 同一 类 
的 简单 算法 有 着 相同 的 平均 性 能 ( 在 所 有 可 能 的 任务 上 )。 

幸运 的 是 ， 这 些 结论 仅 在 我 们 考虑 所 有 可 能 的 数据 生成 分 布 时 才 成 立 。 在 真实 
世界 应 用 中 ， 如 果 我 们 对 遇 到 的 概率 分 布 进行 假设 的 话 ， 那 么 我 们 可 以 设计 在 这 些 
分 布 上 效果 良好 的 学 习 算法 。 

这 意味 着 机 器 学 习 研 究 的 目标 不 是 找 一 个 通用 学 习 算法 或 是 绝对 最 好 的 学 习 算 
法 。 反 之 ,我 们 的 目标 是 理解 什么 样 的 分 布 与 人 工 智能 获取 经 验 的 “真实 世界 ” 相 
关 ， 什 么 样 的 学 习 算法 在 我 们 关注 的 数据 生成 分 布 上 效果 最 好 。 






































ww ai bbt.com DO000000 


52 容量 、 


图 5.4: 训练 集 大 小 对 训练 误差 ,测试 误差 以 及 最 住 容量 的 影响 。 通 
大 小 的 噪声 ， 我 们 构造 了 一 个 合成 的 回归 问题 ， 生 成 单个 测试 集 ， 
集 。 为 了 描述 95% 置信 
两 个 不 同 的 模型 上 让 
差 来 选择 。 两 个 模型 都 是 ) 
增 大 。 这 是 由 于 越 大 的 数据 集 越 难以 拟 合 。 同 时 
的 假设 越 来 越 少 。 二 次 模型 


能 力 记 住 训练 集中 特定 的 样本 。 
二 次 模型 ) 的 训练 误差 都 至 少 增 至 贝 叶 其 
用 最 优 多 项 式 回 归顺 的 阶 数 衡量 上 
不 再 
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阶 多 项 式 添加 适当 


然后 生成 一 些 不 同 尺 寸 的 训练 














可 











误差。 (下) 当 训练 集 大 小 增 大 
4 ) 也 会 随 之 增 大 。 最 佳 容量 在 达到 足够 捕捉 模型 复杂 度 之 后 就 
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区 间 的 误差 条 ， 对 于 每 一 个 尺寸 ,我们 生成 了 40 个 不 同 的 训练 集 。( 上 ) 
测试 集 的 MSBE， 一 个 二 次 模型 ， 另 一 个 模型 的 阶 数 通 过 最 小 化 测试 误 
j 闭 式 解 来 拟 合 。 对 于 二 次 模型 来 说 ， 当 训练 集 增 加 时 训练 误差 也 随 之 
1， 测试 误差 随 之 减 小 ， 因 为 关于 训 
的 容量 并 不 足以 解决 这 个 问题 ， 所 以 它 的 测试 误差 趋 近 于 一 个 较 高 的 
ffi. 最 佳 容量 点 处 的 测试 误差 趋 近 于 贝 叶 斯 误差 。 训 练 误差 可 以 低 于 贝 叶 基 
当 训 练 集 趋向 于 无 穷 大 时 ， 任 何 
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因为 训练 算法 有 


的 模型 ( 在 这 里 指 的 是 
寸 ， 最 佳 容 量 ( 在 这 里 是 
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5.2.2 ”正则 化 


没有 免费 午餐 定理 暗示 我 们 必须 在 特定 任务 上 设计 性 能 恨 好 的 机 器 学 习 算法 。 
我 们 建立 一 组 学 习 算 法 的 仿 好 来 达到 这 个 要 求 。 当 这 些 偏好 和 我 们 希望 算法 解决 的 
学 习 问 题 相 吻合 时 ， 性 能 会 更 好 。 

至 此 ， 我 们 具体 讨论 修改 学 习 算法 的 方法 上 只有， 通过 增加 或 减少 学 习 算 法 可 选 
假设 空间 的 函数 来 增加 或 减少 模型 的 容量 。 我 们 列举 的 一 个 具体 示例 是 线性 回归 增 
加 或 减少 多 项 式 的 次 数 。 目 前 为 止 讨论 的 观点 都 是 过 度 简化 的 。 

算法 的 效果 不 仅 很 大 程度 上 受 影响 于 假设 空间 的 函数 数量 ， 也 取决 于 这 些 函 数 
的 具体 形式 。 我 们 已 经 讨论 的 学 习 算法 (线性 回归 ) 具有 包含 其 输入 的 线性 函数 集 
的 假设 空间 。 对 于 输入 和 输出 确实 接近 线性 相关 的 问题 ， 这 些 线性 函数 是 很 有 用 的 。 
对 于 完全 非 线性 的 问题 它们 不 太 有 效 。 例 如 ,我 们 用 线性 回归 ,从 z 预测 sinz), 效 
果 不 会 好 。 因 此 我 们 可 以 通过 两 种 方式 控制 算法 的 性 能 ,一 是 允许 使 用 的 函数 种 类 ， 
二 是 这 些 函数 的 数量 。 

在 假设 空间 中 ， 相 比 于 某 一 个 学 习 算法 ,我们 可 能 更 侦 好 另 一 个 学 习 算法 。 这 
意味 着 两 个 函数 都 是 符合 条 件 的 ， 但 是 我 们 更 偏好 其 中 一 个 。 只 有 非 偏好 函数 比 偏 
好 函数 在 训练 数据 集 上 效果 明显 好 很 多 时 ,我 们 才 会 考虑 非 偏好 函数 。 

例如 ,我 们 可 以 加 入 NERI (weight decay ) 来 修改 线性 回归 的 训练 标准 。 带 
权重 衰减 的 线性 回归 最 小 化 训练 集 上 的 均 方 误差 和 正则 项 的 和 J(w)， 其 偏好 于 平方 
D 范 数 较 小 的 权重 。 具 体 如 下 : 


J(w) = MSEtrain + Aw! w, (5.18) 


其 中 A 是 提前 挑选 的 值 ， 控 制 我 们 偏好 小 范 数 权重 的 程度 。 当 和 = 0， 我 们 没有 任 
何 偏 好 。 越 大 的 和 偏好 范 数 越 小 的 权重 。 最 小 化 7(w) 可 以 看 作 是 拟 合 训练 数据 和 
偏好 小 权重 范 数 之 间 的 权衡 。 这 会 使 得 解决 方案 的 斜率 较 小 ， 或 是 将 权重 放 在 较 少 
的 特征 上 。 我 们 可 以 训练 具有 不 同 和 值 的 高 次 多 项 式 回归 模型 ， 来 举例 说 明 如 何 通 
过 权重 衰减 控制 模型 欠 拟 合 或 过 拟 合 的 趋势 。 如 图 5.5 所 示 。 

更 一 般 地 ， 正 则 化 一 个 学 习 函 数 f(z; 9) 的 模型 ， 我 们 可 以 给 代价 函数 添加 被 称 
为 正则 化 项 ( regularizer ) 的 惩罚 。 在 权重 衰减 的 例子 中 , 正则 化 项 是 Q(w) = wl w 
在 第 七 章 ， 我 们 将 看 到 很 多 其 他 可 能 的 正则 化 项 。 

表示 对 函数 的 偏好 是 比 增 减 假设 空间 的 成 员 函 数 更 一 般 的 控制 模型 容量 的 方法 。 
我 们 可 以 将 去 掉 假设 空间 中 的 某 个 函数 看 作 是 对 不 赞成 这 个 函数 的 无 限 偏好 。 
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Underfitting Appropriate weight decay Overfitting 
(Excessive 入) (Medium åA) (入 一 0) 


20 To To 














图 5.5: 我 们 使 用 高 阶 多 项 式 回归 模型 来 拟 合 图 5.2 中 训练 样本 。 真 实 函 数 是 二 次 的 ， 但 是 在 这 里 
我 们 只 使 用 9 阶 多 项 式 。 我 们 通过 改变 权重 衰减 的 量 来 避免 高 阶 模型 的 过 拟 合 问题 。( 左 ) 当 AE 
常 大 时 ,我们 可 以 强迫 模型 学 习 到 了 一 个 没有 和 斜率 的 函数 。 由 于 它 只 能 表示 一 个 常数 函数 ， 所 以 
会 导致 欠 拟 合 。( 中 ) 取 一 个 适当 的 入 时 ， 学 习 算 法 能 够 用 一 个 正常 的 形状 来 恢复 曲率 。 即 使 模型 
能 够 用 更 复杂 的 形状 来 来 表示 函数 ， 权 重 衰减 鼓励 用 一 个 带 有 更 小 参数 的 更 简单 的 模型 来 描述 它 。 
(E) 当权 重 衰减 趋 近 于 0 (BEH Moore-Penrose 伪 逆 来 解 这 个 带 有 最 小 正则 化 的 欠 定 问题 ) 时 ， 
这 个 9 阶 多 项 式 会 导致 严重 的 过 拟 合 ， 这 和 我 们 在 图 5.2 中 看 到 的 一 样 。 





























































































































在 我 们 权重 衰减 的 示例 中 ， 通 过 在 最 小 化 的 目标 中 额外 增加 一 项 ， 我 们 明确 地 
表示 了 偏好 权重 较 小 的 线性 函数 。 有 很 多 其 他 方法 隐 式 或 显 式 地 表示 对 不 同 解 的 偏 
好 。 总 而 言 之 ， 这 些 不 同 的 方法 都 被 称 为 正则 化 (regularization )。 正 则 化 是 指 我 们 
修改 学 习 算 法 ,使 其 降低 泛 化 误差 而 非 训 练 误差 。 正 则 化 是 机 带 学 习 领 域 的 中 心间 
题 之 一 ， 只 有 优化 能 够 与 其 重要 性 相 媲 。 

没有 免费 午餐 定理 已 经 清楚 地 阐述 了 没有 最 优 的 学 习 算 法 ， 特 别 地 ， 没 有 最 优 
的 正则 化 形式 。 反 之 ， 我 们 必须 挑选 一 个 非常 适合 于 我 们 所 要 解决 的 任务 的 正则 形 
式 。 深 度 学 习 中 普遍 的 (特别 是 本 书 中 的 ) 理念 是 大 量 任务 (例如 所 有 人 类 能 做 的 
智能 任务 ) 也 许 都 可 以 使 用 非常 通用 的 正则 化 形式 来 有 效 解决 。 











5.3” 超 参数 和 验证 集 


大 多 数 机 器 学 习 算法 都 有 超 参数 ， 可 以 设置 来 控制 算法 行为 。 超 参数 的 值 不 是 
通过 学 习 算法 本 里 学 习 出 来 的 (尽管 我 们 可 以 设计 一 个 嵌 套 的 学 习 过 程 ， 一 个 学 习 
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算法 为 男 一 个 学 习 算 法 学 出 最 优 超 参数 )。 

在 图 5.2 所 示 的 多 项 式 回 归 示 例 中 ， 有 一 个 超 参数 ， 多 项 式 的 次 数 ， 作 为 容量 超 
参数 。 控 制 权重 衰减 程度 的 入 是 另 一 个 超 参数 。 

有 了 时 一 个 选项 被 设 为 学 习 算法 不 用 学 习 的 超 参 数 ， 是 因为 它 太 难 优化 了 。 更 多 
的 情况 是 ， 该 选项 必须 是 超 参 数 ， 因 为 它 不 适合 在 训练 集 上 学 习 。 这 适用 于 控制 模 
型 容量 的 所 有 超 参 数 。 如 果 在 训练 集 上 学 习 超 参数 ， 这 些 超 参数 总 是 趋向 于 最 大 可 
能 的 模型 容量 ， 导 致 过 拟 合 ( 参考 图 5.3 )。 例 如 ， 相 比 低 次 多 项 式 和 正 的 权重 衰减 
设 定 ， 更 高 次 的 多 项 式 和 权重 衰减 参数 设 定 入 = 0 总 能 在 训练 集 上 更 好 地 拟 合 。 

为 了 解决 这 个 问题 ， 我 们 需要 一 个 训练 算法 观测 不 到 的 验证 集 (validation set ) 
样本 。 

早先 我 们 讨论 过 和 训练 数据 相同 分 布 的 样本 组 成 的 测试 集 ， 它 可 以 用 来 估计 学 
习 过 程 完成 之 后 的 学 习 器 的 泛 化 误差 。 其 重点 在 于 测试 样本 不 能 以 任何 形式 参与 到 
模型 的 选择 中 ， 包 括 设 定 超 参数 。 基 于 这 个 原因 ， 测试 集中 的 样本 不 能 用 于 验证 集 。 
因此 ， 我 们 总 是 从 训练 数据 中 构建 验证 集 。 特别 地 ， 我 们 将 训练 数据 分 成 两 个 不 相 
交 的 子 集 。 其 中 一 个 用 于 学 习 参 数 。 另 一 个 作为 验证 集 ， 用 于 估计 训练 中 或 训练 后 
的 泛 化 误差 ， 更 新 超 参 数 。 用 于 学 习 参 数 的 数据 子 集 通 销 仍 被 称 为 训练 集 ， 尽 管 这 
会 和 整个 训练 过 程 用 到 的 更 大 的 数据 集 相 混 。 用 于 挑选 超 参数 的 数据 子 集 被 称 为 验 
证 集 (validation set ) HA, 80% 的 训练 数据 用 于 训练 ，20% 用 于 验证 。 由 于 验证 
集 是 用 来 “训练 ” 超 参数 的 ， 尽管 验 证 集 的 误差 通常 会 比 训练 集 误差 小 ， 验 证 集会 低 
佑 泛 化 误差 。 所 有 超 参 数 优化 完成 之 后 ， 泛 化 误差 可 能 会 通过 测试 集 来 估计 。 

在 实际 中 ， 当 相同 的 测试 集 已 在 很 多 年 中 重复 地 用 于 评估 不 同 算法 的 性 能 ， 并 
且 考 虑 学 术 界 在 该 测试 集 上 的 各 种 和 尝试， 我 们 最 后 可 能 也 会 对 测试 集 有 着 乐观 的 估 
计 。 基 准 会 因 之 变 得 陈旧 ， 而 不 能 反映 系统 的 真实 性 能 。 值 得 庆幸 的 是 ,学 术 界 往往 
会 移 到 新 的 ( 通常 会 更 巨大 、 更 具 挑 战 性 ) 基准 数据 集 上 。 





























5.3.1 ”交叉 验证 


将 数据 集 分 成 固定 的 训练 集 和 固定 的 测试 集 后 ， 若 测试 集 的 误差 很 小 ， 这 将 是 
有 问题 的 。 一 个 小 规模 的 测试 集 意味 着 平均 测试 误差 估计 的 统计 不 确定 性 ， 使 得 很 
难 判断 算法 A 是 否 比 算法 B 在 给 定 的 任务 上 做 得 更 好 。 

当 数 据 集 有 十 万 计 或 者 更 多 的 样本 时 ， 这 不 会 是 一 个 严重 的 问题 。 当 数据 集 太 
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小 时 ， 也 有 替代 方法 允许 我 们 使 用 所 有 的 样本 估计 平均 测试 误差 ， 代 价 是 增加 了 计 
算 量 。 这 些 过 程 是 基于 在 原始 数据 上 随机 采样 或 分 离 出 的 不 同 数据 集 上 重复 训练 和 
测试 的 想法 。 最 常见 的 是 & 折 交叉 验证 过 程 ， 如 算法 5.1 所 示 ， 将 数据 集 分 成 个 
不 重合 的 子 集 。 测 试 误差 可 以 估计 为 次 计算 后 的 平均 测试 误差 。 在 第 i 次 测试 时 ， 
数据 的 第 i 个 子 集 用 于 测试 集 ， 其 他 的 数据 用 于 训练 集 。 带 来 的 一 个 问题 是 不 存在 
平均 误差 方差 的 无 偏 估计 (Bengio and Grandvalet, 2004), 但 是 我 们 通常 会 使 用 近 
似 来 解决 。 





























算法 5.1 k- 折 交叉 验证 算法 。 当 给 定数 据 集 DD 对 于 简单 的 训练 /测试 或 训练 /验证 分 
割 而 言 太 小 难以 产生 泛 化 误差 的 准确 估计 时 ( 因为 在 小 的 测试 集 上 , L 可 能 具有 过 
高 的 方差 )，k- 折 交叉 验证 算法 可 以 用 于 估计 学 习 算 法 4 的 泛 化 误差 。 数 据 集 卫 包 
含 的 元 素 是 抽象 的 样本 2 ( 对 于 第 i 个 样本 )， 在 监督 学 习 的 情况 代表 (输入 ， 目 
ER) 对 20 = (2 yO) ， 或 者 无 监督 学 习 的 情况 下 仅 用 于 输入 x = h, 该 算法 
返回 D 中 每 个 示例 的 误差 向 量 e， 其 均值 是 估计 的 泛 化 误差 。 单 个 样本 上 的 误差 可 
用 于 计算 平均 值 周围 的 置信 区 间 ( 式 (5.47) )。 虽 然 这 些 置 信 区 间 在 使 用 交叉 验证 之 
后 不 能 很 好 地 证 明 ， 但 是 通常 的 做 法 是 只 有 当 算 法 A 误差 的 置信 区 间 低 于 并 且 不 与 
算法 B 的 置信 区 间 相 交 时 ， 我 们 才 声 明 算法 4 比 算法 B 更 好 。 
Define KFoldXV(D, A, L, k): 
Require: D 为 给 定数 据 集 ， 其 中 元 素 为 z” 
Require: A 为 学 习 算 法 ,可 视 为 一 个 函数 (使 用 数据 集 作 为 输入 , 输出 一 个 学 好 的 
函数 ) 
Require: L 为 损失 函数 ， 可 视 为 来 自学 好 的 函数 六， 将 样本 xz? © DD 映射 到 及 中 
标量 的 函数 
Require: k 为 折 数 
将 DIH k EFTE D, CHARA 
for i from 1 to k do 
fı = A(D\D;) 
for z in D; do 
ej = L(fi,2) 


end for 
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end for 


Return e 
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统计 领域 为 我 们 提供 了 很 多 工具 来 实现 机 器 学 习 目 标 ， 不 仅 可 以 解决 训练 集 上 
的 任务 ,还 可 以 泛 化 。 基 本 的 概念 ， 例 如 参数 估计、 侦 差 和 方差 ， 对 于 正式 地 刻画 泛 
化 、 欠 拟 合 和 过 拟 合 都 非常 有 帮助 。 














5.4.1 点 估计 


点 估计 试图 为 一 些 感 兴趣 的 量 提供 单个 “最 优 ” 预 测 。 一般 地 ， 感 兴趣 的 量 可 以 
是 单个 参数 ， 或 是 某 些 参数 模型 中 的 一 个 向 量 参数 ， 例 如 第 5.1.4 节 线性 回归 中 的 权 
重 ， 但 是 也 有 可 能 是 整个 函数 。 

为 了 区 分 参数 估计 和 真实 值 ， 我 们 习惯 将 参数 9 的 点 估计 表示 为 6。 

S {a ..., 00} 是 m 个 独立 同 分 布 (ii.d. ) 的 数据 点 。 点 估计 (point esti- 
mator ) 或 统计 量 (statistics ) 是 这 些 数据 的 任意 函数 : 


6, = g(@,..., 0). (5.19) 


这 个 定义 不 要 求 g 返回 一 个 接近 真实 9 的 值 ， 或 者 g 的 值 域 恰好 是 9 的 允许 取 值 
范围 。 点 估计 的 定义 非常 宽泛 ， 给 了 估计 量 的 设计 者 极 大 的 灵活 性 。 虽 然 几 乎 所 有 
的 函数 都 可 以 称 为 佑 计量， 但 是 二 个 良好 的 佑 计量 的 输出 会 接近 生成 训练 数据 的 真 
实 参数 0。 

现在 ,我 们 采取 频率 派 在 统计 上 的 观点 。 换 言 之 ,我 们 假设 真实 参数 0 是 固定 
但 未 知 的 ， 而 点 估计 6 是 数据 的 函数 。 由 于 数据 是 随机 过 程 采样 出 来 的 ， 数 据 的 任 
何 函 数 都 是 随机 的 。 因 此 6 是 一 个 随机 变量 。 

点 估计 也 可 以 指 输入 和 目标 变量 之 间 关 系 的 估计 。 我 们 将 这 种 类 型 的 点 估计 称 
为 函数 估计 。 


函数 估计 有 时 我 们 会 关注 函数 估计 (或 函数 近似 )。 这 时 我 们 试图 从 输入 向 量 x 预 
测 变 量 y。 我 们 假设 有 一 个 函数 f(x) 表示 y 和 zx 之 间 的 近似 关系 。 例如， 我 们 可 能 
假设 y= f(x) te, Heh e 是 y 中 未 能 从 z 预测 的 一 部 分 。 在 函数 估计 中 ， 我们 感 
兴趣 的 是 用 模型 估计 去 近似 f， 或 者 估计 fo 函数 估计 和 估计 参数 9 是 一 样 的 ; PA 
数 估计 f 是 函数 空间 中 的 一 个 点 估计 。 线 性 回归 示例 (第 5.1.4 节 中 讨论 的 ) 和 多 项 
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式 回归 示例 (第 5.2 节 中 讨论 的 ) 都 既 可 以 被 解释 为 估计 参数 w， 又 可 以 被 解释 为 估 
计 从 z 到 y 的 函数 映射 fo 


5.4.2 ”偏差 
估计 的 偏差 被 定义 为 : 














bias(0,,) = E(0,,) — 9, (5.20) 
其 中 期 请 作用 在 所 有 数据 (看 作 是 从 随机 变量 采样 得 到 的 ) 上 ,9 是 用 于 定义 数 
据 生 成 分 布 的 9 的 真实 值 。 如 果 bias(0,,) = 0， 那 么 估计 量 Ôm 被 称 为 是 无 偏 
(unbiased )， 这 意味 着 E (On) = 0. WR limp so bias(0,,) 二 0， 那么 估计 量 Ôm 被 
称 为 是 渐 近 无 偏 (asymptotically unbiased )， 这 意味 着 lim,, yo E(0,,) = 0。 






































示例 : 伯 努 利 分 布 考虑 一 组 服从 均值 为 8 的 伯 努 利 分 布 的 独立 同 分 布 的 样本 
fy ayes 


P(2; 0) = 67° (1= 00 =À (5.21) 
这 个 分 布 中 参数 9 的 常用 估计 量 是 训练 样本 的 均值 : 
6m = 二 >D ge, (5.22) 



































bias(0,,) = E[4n] — 0 (5.23) 
-E 2 ya] _6 (5.24) 
m < 
i=l 
or 5. E [2] — 0 (5.25) 
m = 
IAS G) @ 
= 二 > > (00 0-00) - 0 (5.26) 
) 
= E (5.27) 
= . 
=§-6= (5.28) 
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因为 bias(0) = 0， 我 们 称 估计 6 是 无 偏 的 。 


示例 : 均值 的 高 斯 分 布 估 计 现在 ， 考 虑 一 组 独立 同 分 布 的 样本 {x 中 ,... ,xz } 服 
sia p(x) =N (2; 07), FEP ie {1,...,m}. 回顾 高 斯 概率 密度 函数 如 
下 : 
i 1 
p(a; u, 0?) = E (5E) ; (5.29) 
高 斯 均值 参数 的 常用 估计 量 被 称 为 样本 均值 ( sample mean ): 
je 
jim = — 2, x (5.30) 


FUT PASE A m, PA PROCES 











bias(fim) = Elfim] — u (5.31) 
=E z S «| — u (5.32) 


= (5 E 0) -u (5.33) 


= (+3) -p (5.34) 


一 /一 0 (5.35) 























因此 我 们 发 现 样本 均值 是 高 斯 均值 参数 的 无 侦 佑 计量 。 














示例 : 高 斯 分 布 方差 估计 本 例 中 ,我 们 比较 高 斯 分 布 方差 参数 o? 的 两 个 不 同 佑 
计 。 我 们 探讨 是 否 有 一 个 是 有 偏 的 。 
我 们 考虑 的 第 一 个 方差 估计 被 称 为 样本 方差 ( sample variance ): 


m 


TEA ©O_ py 
Om 一 m > (z fim) 》 (5.36) 


i=l 


其 中 fim 是 样本 均值 。 更 形式 地 ， 我 们 对 计算 感 兴趣 




















bias(62,) 一 下 [62 ] — o°. (5.37) 
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我 们 首先 估计 项 EI62,]: 



































E[62,] =E 2 > (2 一 in) (5.38) 


= o (5.39) 








回 到 式 (5.37) ， 我 们 可 以 得 出 62 的 偏差 是 o/m, KRR EA iG TT 
无 偏 样本 方差 ( unbiased sample variance ) 估计 


























2 Í sharia 
om = a (x Âm) (5.40) 
bet T APEE. IEMA Sa, AAEM haz, RSMA 


E[52 ] = 07: 







































































g[52 ] =E = - » (2 — in) (5.41) 
= 一 一 人 Elen (5.42) 
= -一 (= ta?) (5.43) 
Fo’. (5.44) 








我 们 有 两 个 佑 计量 : 一 个 是 有 偏 的 ， 男 一 个 是 无 偏 的 。 尽 管 无 偏 估计 显然 是 令 
人 满意 的 ; 但 它 并 不 总 是 “最 好 ”的 估计 。 我 们 将 看 到 ， 经 常会 使 用 其 他 具有 重要 性 
质 的 有 偏 估计 。 









































5.43 “方差 和 标准 差 


我 们 有 时 会 考虑 估计 量 的 另 一 个 性 质 是 它 作 为 数据 样本 的 函数 ， 期 望 的 变化 程 
度 是 多 少 。 正 如 我 们 可 以 计算 估计 量 的 期 望 来 决定 它 的 偏差 ， 我 们 也 可 以 计算 它 的 
方差 。 估 计量 的 方差 (variance ) 就 是 一 个 方差 

















Var(0) (5.45) 


其 中 随机 变量 是 训练 集 。 另 外 , 方差 的 平方 根 被 称 为 标准 差 ( standard error ), 记 作 
SE(0), 
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估计 量 的 方差 或 标准 差 告诉 我 们 ， 当 独立 地 从 潜在 的 数据 生成 过 程 中 重 采 样 数 
据 集 时 ， 如 何 期 望 估计 的 变化 。 正 如 我 们 希望 估计 的 偏差 较 小 ,我们 也 希望 其 方差 
较 小 。 

当 我 们 使 用 有 限 的 样本 计算 任何 统计 量 时 ， 真 实 参 数 的 估计 都 是 不 确定 的 ， 在 
这 个 意义 下 ， 从 相同 的 分 布 得 到 其 他 样本 时 ， 它 们 的 统计 量 也 会 不 一 样 。 任何 方差 
估计 量 的 期 望 程度 是 我 们 想 量化 的 误差 的 来 源 。 

均值 的 标准 差 被 记 作 























SE(Âm) = (e 





Ea | (5.46) 





其 中 o? 是 样本 rO 的 真实 方差 。 标 准 差 通常 被 记 作 o。 可惜 ， 样 本 方差 的 平方 根 和 
方差 无 偏 估 计 的 平方 根 都 不 是 标准 差 的 无 偏 估计 。 这 两 种 计算 方法 都 倾向 于 低估 真 
实 的 标准 差 , 但 仍 用 于 实际 中 。 相 较 而 言 , 方差 无 偏 估计 的 平方 根 较 少 被 低 佑 。 对 于 
较 大 的 m， 这 种 近似 非常 合理 

均值 的 标准 差 在 机 器 学 习 实 验 中 非常 有 用 。 我 们 通常 用 测试 集 样本 的 误差 均值 
来 估计 泛 化 误差 。 测 试 集中 样本 的 数量 决定 了 这 个 估计 的 精确 度 。 中 心 极限 定理 告 
诉 我 们 均值 会 接近 一 个 高 其 分布， 我们 可 以 用 标准 差 计 算出 真实 期 望 落 在 选 定 区 间 
的 概率 。 例 如 ， 以 均值 fm 为 中 心 的 95% 置信 区 间 是 



































(fim — 1.96SE(fim), Âm + 1.96SE(fim)), (5.47) 


以 上 区 间 是 基于 均值 Am 和 方差 SBE(f)? 的 高 斯 分 布 。 在 机 器 学 习 实 验 中 ， 我 们 通 
常 说 算法 A 比 算法 B 好 ， 是 指 算法 4 的 误差 的 95% 置信 区 间 的 上 界 小 于 算法 B 
的 误差 的 95% 置信 区 间 的 下 界 。 


示例 : 伯 努 利 分 布 ”我们 再 次 考虑 从 伯 努 利 分 布 (回顾 P(e; 0) = 02° (1-9)! ) 
中 独立 同 分 布 采 样 出 来 的 一 组 样本 {fz0,...,z(o}。 这 次 我 们 关注 估计 Ôn = 
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1yr sO 的 方差 : 


Var ( wed > a! 7 (5.48) 
we 

= rA Ve (5.49) 

= = Sa (5.50) 

= 4 — 6) (5.51) 

= loq _ 6) (5.52) 


佑 计量 方差 的 下 降 速 率 是 关于 数据 集 样本 数目 m 的 函数 。 这 是 常见 估计 量 的 普 裔 性 
质 ， 在 探讨 一 致 性 (参考 第 5.4.5 节 ) 时 ， 我 们 会 继续 讨论 。 











5.4.4 ”权衡 偏差 和 方差 以 最 小 化 均 方 误差 








偏差 和 方差 度量 着 佑 计量 的 两 个 不 同 误差 来 源 。 偏 差 度量 着 偏离 真实 函数 或 参 
数 的 误差 期 望 。 而 方差 度量 着 数据 上 任意 特定 采样 可 能 导致 的 估计 期 望 的 偏差 。 

当 我 们 可 以 在 一 个 偏差 更 大 的 估计 和 一 个 方差 更 大 的 估计 中 进行 选择 时 ， 会 发 
生 什么 呢 ? 我 们 该 如 何 选择 ? 例如 ， 想 象 我 们 和 希望 近似 图 5.2 中 的 函数 ,我们 只 可 以 
选择 一 个 偏差 较 大 的 估计 或 一 个 方差 较 大 的 估计 ， 我 们 该 如 何 选择 呢 ? 

判断 这 种 权衡 最 常用 的 方法 是 交叉 验证 , 经 验 上 , 交叉 验证 在 真实 世界 的 许多 任 
务 中 都 非常 成 功 。 另 外 , 我 们 也 可 以 比较 这 些 估计 的 均 方 误差 (mean squared error, 
MSE): 



































MSE = E[(0,, — 9) (5.53) 
= Bias(6m)? + Var(6m) (5.54) 
MSE 度 量 着 佑 计 和 真实 参数 0 之 间 平 方 误 差 的 总 体 期 望 偏 差 。 如 式 (5.54) 所 示 ， 


MSE 估计 包含 了 偏差 和 方差 。 理 想 的 估计 具有 较 小 的 MSE 或 是 在 检查 中 会 稍微 约 
束 它们 的 偏差 和 方差 。 


偏差 和 方差 的 关系 和 机 带 学 习 容 量 、 欠 拟 合 和 过 拟 合 的 概念 紧密 相 联 ,6 用 MSPE 度 
量 泛 化 误差 ( 偏差 和 方差 对 于 泛 化 误差 都 是 有 意义 的 ) 时 , 增加 容量 会 增加 方差 , 降 
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低 偏差 。 如 图 5.6 所 示 ， 我 们 再 次 在 关于 容量 的 函数 中 ， 看 到 泛 化 误差 的 U 形 曲线 。 










Underfitting zone Overfitting zone 


Generalization 

















Optimal Capacity 

capacity 
图 5.6: 当 容量 增 大 (x 轴 ) 时 ,偏差 ( 用 点 表示 ) 随 之 减 小 ， 而 方差 ( 虚线 ) 随 之 增 大 ， 使 得 泛 
化 误差 ( 加 粗 曲 线 ) 产生 了 另 一 种 U 形 。 如 果 我 们 沿 着 轴 改 变 容量 ， 会 发 现 最 佳 容量 ， 当 容量 小 




















于 最 佳 容量 会 呈现 欠 拟 合 ， 大 于 时 导致 过 拟 合 。 这 种 关系 与 第 5.2 FORA 5.3 中 讨论 的 容量 、 欠 
拟 合 和 过 拟 合 之 间 的 关系 类 似 。 





5.4.5 ”一 致 性 


目前 我 们 已 经 探讨 了 固定 大 小 训练 集 下 不 同 佑 计量 的 性 质 。 通 常 ， 我 们 也 会 关 
注 训 练 数据 增多 后 佑 计量 的 效果 。 特 别 地 ， 我 们 希望 当 数 据 集中 数据 点 的 数量 m 增 
加 时 ,点 估计 会 收敛 到 对 应 参数 的 真实 值 。 更 形式 地 ， 我 们 想 要 





plim Qn (5.55) 


mo0 m 


符号 pim 表示 依 概 率 收敛 ， 即 对 于 任意 的 e> 0, “Ym ott, 有 P(I0%, 一 90|> 
e) 一 0。 式 (5.55) 表示 的 条 件 被 称 为 一 致 性 (consistency )。 有 时 它 是 指 弱 一 致 性 ， 
强 一 致 性 是 指 几乎 必然 (almost sure) 从 6 收敛 到 9。 几乎 必然 收敛 (almost sure 
convergence ) 是 指 当 pllimn ;yw XW" = x) = 1 时 ,随机 变量 序列 xD, x, ... 收 
ME a. 

一 致 性 保证 了 估计 量 的 偏差 会 随 数 据 样本 数目 的 增多 而 减少 。 然 而 ， 反 过 来 是 
不 正确 的 一 一 渐 近 无 偏 并 不 意味 着 一 致 性 。 例 如 ， 考 虑 用 包含 m 个 样本 的 数据 集 
fa), ..., 0°} 估计 正 态 分 布 N(z; 1,o?) 的 均值 参数 jw。 我 们 可 以 使 用 数据 集 的 第 
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一 个 样本 rO 作为 无 偏 估 计量 : 6 = zx 中。 在 该 情况 下 ，E(6,,) = 0， 所 以 不 管 观测 
到 多 少数 据点 , 该 估计 量 都 是 无 偏 的 。 然 而 ,这 不 是 一 个 一 致 估计 ， 因为 它 不 满足 当 


m 一 oo 时 ， 6m — 0。 






































5.5 ”最 大 似 然 估计 


之 前 ， 我 们 已 经 看 过 常用 佑 计 的 定义 ， 并 分 析 了 它们 的 性 质 。 但 是 这 些 估计 是 
从 哪里 来 的 呢 ? 我 们 希望 有 些 准则 可 以 让 我 们 从 不 同 模型 中 得 到 特定 函数 作为 好 的 
估计 ， 而 不 是 猜测 某 些 函 数 可 能 是 好 的 估计 ， 然 后 分 析 其 偏差 和 方差 。 

最 常用 的 准则 是 最 大 似 然 估计 。 

考虑 一 组 含有 m 个 样本 的 数据 集 X = {2 ,..., zx" }， 独 立地 由 未 知 的 真实 数 
据 生成 分 布 Daata(X) 生成 。 

令 Pmodel(X; 9) 是 一 族 由 9 确定 在 相同 空间 上 的 概率 分 布 。 换 言 之 ，pmoadel(z; 0) 
将 任意 输入 z 映射 到 实数 来 佑 计 真实 概率 Puata(z)。 

对 9 的 最 大 似 然 佑 计 被 定义 为 : 


OML = arg max pmoda (X; 9), (5.56) 
6 
= arg max | [ Pmoaei(e; 0). (5.57) 
2 ti 


多 个 概率 的 乘积 会 因 很 多 原因 不 便于 计算 。 例 如 ， 计 算 中 很 可 能 会 出 现 数值 
下 溢 。 为 了 得 到 一 个 便于 计算 的 等 价 优化 问题 ， 我 们 观察 到 似 然 对 数 不 会 改变 其 
arg max 但 是 将 乘积 转化 成 了 便于 计算 的 求 和 形式 : 


Our = arg max >》， log podai (2; 0). (5.58) 
9 i=l 
因为 当 我 们 重新 缩放 代价 函数 时 arg max 不 会 改变 ,我们 可 以 除 以 m 得 到 和 训练 数 
据 经 验 分 布 Paata 相关 的 期 望 作为 准则 : 














Oui = arg max Ex~pana 10g Pmodei (7; 0). (5.59) 
0 


一 种 解释 最 大 似 然 估计 的 观点 是 将 它 看 作 最 小 化 训练 集 上 的 经 验 分 布 Paata 和 模 
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型 分 布 之 间 的 差异 ,两 者 之 间 的 差异 程度 可 以 通过 KL 散 度 度量 。KL 散 度 被 定义 为 











DkL (Paata ||Pmoae1) _ Lew Baate [log Paata (£) _ log Pmodel (x)] . (5.60) 





左边 一 项 仅 涉及 到 数据 生成 过 程 ， 和 模型 无 关 。 这 意味 着 当 我 们 训练 模型 最 小 化 KL 
散 度 时 ， 我 们 只 需要 最 小 化 











a Hew Bante [log Pmodel (2)], (5.61) 





当然 ， 这 和 式 (5.59) 中 最 大 化 是 相同 的 。 

最 小 化 KL 散 度 其 实 就 是 在 最 小 化 分 布 之 间 的 交叉 炉 s 许多 作者 使 用 术语 “ 交 
叉 炉 ”特定 表示 伯 努 利 或 softmax 分 布 的 负 对 数 似 然 , 但 那 是 用 词 不 当 的 。 任 何 一 
个 由 负 对 数 似 然 组 成 的 损失 都 是 定义 在 训练 集 上 的 经 验 分 布 和 定义 在 模型 上 的 概率 
分 布 之 间 的 交叉 炉 。 例 如 ， 均 方 误差 是 经 验 分 布 和 高 斯 模型 之 间 的 交叉 炉 。 

我 们 可 以 将 最 大 似 然 看 作 是 使 模型 分 布 尽 可 能 地 和 经 验 分 布 Paaa 相 匹 配 的 尝 
试 。 理 想 情 况 下 ， 我 们 希望 匹配 真实 的 数据 生成 分 布 paata。， 但 我 们 没 法 直接 知道 这 
个 分 布 。 

虽然 最 优 9 在 最 大 化 似 然 或 是 最 小 化 KL 散 度 时 是 相同 的 ， 但 目标 函数 值 是 不 
一 样 的 。 在 软件 中 ， 我 们 通常 将 两 者 都 称 为 最 小 化 代价 函数 。 因 此 最 大 化 似 然 变 成 
了 最 小 化 负 对 数 似 然 ( NLL)， 或 者 等 价 的 是 最 小 化 交叉 炉 。 将 最 大 化 似 然 看 作 最 小 
化 KL 散 度 的 视角 在 这 个 情况 下 是 有 帮助 的 ， 因 为 已 知 KL 散 度 最 小 值 是 零 。 当 z 
取 实 数 时 ， 负 对 数 似 然 是 负 值 。 


5.5.1 条件 对 数 似 然 和 均 方 误差 
最 大 似 然 估计 很 容易 扩展 到 估计 条 件 概 率 P(y | x; 9)， 从 而 给 定 x 预测 y。 实 
际 上 这 是 最 常见 的 情况 ， 因 为 这 构成 了 大 多 数 监 督学 习 的 基础 。 如 果 站 表示 所 有 的 
A, Y 表示 我 们 观测 到 的 目标 ， 那 么 条 件 最 大 似 然 估计 是 
Ou = arg maxP( Y | X;6). (5.62) 
8 
如 果 假 设 样本 是 独立 同 分 布 的 ， 那 么 这 可 以 分 解 成 


OML = arg max 》 log P(y® | 2; 0). (5.63) 
2 iz 
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示例 : 线性 回归 作为 最 大 似 然 。 第 5.1.4 节 介绍 的 线性 回归 ， 可 以 被 看 作 是 最 大 似 然 
过 程 。 之 前 ,我 们 将 线性 回归 作为 学 习 从 输入 zx 映射 到 输出 5 的 算法 。 从 we 到 的 
映射 选 自 最 小 化 均 方 误差 (我们 或 多 或 少 介 绍 的 一 个 标准 )。 现 在 ,我 们 以 最 大 似 然 
估计 的 角度 重新 审视 线性 回归 。 我 们 现在 希望 模型 能 够 得 到 条 件 概率 p(y | x), mA 
只 是 得 到 一 个 单独 的 预测 9. 想象 有 一 个 无 限 大 的 训练 集 , 我 们 可 能 会 观测 到 几 个 训 
练 样本 有 相同 的 输入 z 但 是 不 同 的 yo 现在 学 习 算法 的 目标 是 拟 合 分 布 p(y | z) 到 和 
z 相 匹配 的 不 同 的 yo 为 了 得 到 我 们 之 前 推导 出 的 相同 的 线性 回归 算法 ， 我 们 定义 
ply | 2) =N(y;9(a; w), 07). PA O(a; w) 预测 高 斯 的 均值 。 在 这 个 例子 中 ， 我 们 假 
设 方差 是 用 户 固定 的 某 个 常量 c?。 这 种 函数 形式 ply | z) 会 使 得 最 大 似 然 估计 得 出 
和 之 前 相同 的 学 习 算法 。 由 于 假设 样本 是 独立 同 分 布 的 ， 条件 对 数 似 然 ( 式 (5.63) ) 
如 下 














S log p(y | £0;0) (5.64) 


i=l 


= — mlogo — 5 log(27) 3 lg 





(i) _ yo 


E (5.65) 





其 中 gO 是 线性 回归 在 第 i 个 输入 zx) 上 的 输出 ，m 是 训练 样本 的 数目 。 对 比 于 均 
方 误差 的 对 数 似 然 ， 


te : A2 
本 asf > ni) _ 9 (4) 
MSEtrain = m 气 - ló y | ? (5.66) 
我 们 立刻 可 以 看 出 最 大 化 关于 w 的 对 数 似 然 和 最 小 化 均 方 误差 会 得 到 相同 的 参数 佑 


计 wo 但 是 对 于 相同 的 最 优 w， 这 两 个 准则 有 着 不 同 的 值 。 这 验证 了 MSEB 可 以 用 
于 最 大 似 然 佑 计 。 正 如 我 们 将 看 到 的 ， 最 大 似 然 估计 有 几 个 理想 的 性 质 。 





5.5.2 ”最 大 似 然 的 性 质 


最 大 似 然 佑 计 最 吸引 人 的 地 方 在 于 ， 它 被 证 明 当 样本 数目 m 一 co 时 ， 就 收敛 

率 而 言 是 最 好 的 渐 近 估计 。 
在 合适 的 条 件 下 ， 最 大 似 然 估计 具有 一 致 性 〈 人 参考 第 5.4.5 节 )， 意 味 着 训练 样 
本 数目 趋向 于 无 穷 大 时 ， 参 数 的 最 大 似 然 佑 计 会 收敛 到 参数 的 真实 值 。 这 些 条 件 是 : 
。 真实 分 布 Paata 必须 在 模型 族 paoaqa(; 0) 中 。 否 则 ， 没 有 佑 计 可 以 还 原 paatac 
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© ASAP pana 必须 刚好 对 应 一 个 9 值 。 否 则 ， 最 大 似 然 估计 恢复 出 真实 分 布 
Panta 后 ， 也 不 能 决定 数据 生成 过 程 使 用 哪个 9。 








除了 最 大 似 然 估计 ， 还 有 其 他 的 归纳 准则 ， 其 中 许多 共享 一 致 估计 的 性 质 。 然 
而 , 一 致 估计 的 统计 效率 (statistic efficiency ) 可 能 区 别 很 大 。 某 些 一 致 估计 可 能 会 
在 固定 数目 的 样本 上 获得 一 个 较 低 的 泛 化 误差 ,或 者 等 价 地 ， 可 能 只 需要 较 少 的 样 
本 就 能 达到 一 个 固定 程度 的 泛 化 误差 。 

统计 效率 通常 用 于 有 参 情况 (parametric case) 的 研究 中 (例如 线性 回归 )。 有 
参 情 况 中 我 们 的 目标 是 估计 参数 值 (假设 有 可 能 确定 真实 参数 )， 而 不 是 函数 值 。 一 
种 度量 我 们 和 真实 参数 相差 多 少 的 方法 是 计算 均 方 误差 的 期 望 ， 即 计算 m 个 从 数据 
生成 分 布 中 出 来 的 训练 样本 上 的 估计 参数 和 真实 参数 之 间 差 值 的 平方 。 有 参 均 方 误 
差 估计 随 着 m 的 增加 而 减少 ， 当 m BERT, Cramér-Rao 下 界 (Rao, 1945; Cramér, 
1946) 表明 不 存在 均 方 误差 低 于 最 大 似 然 估计 的 一 致 估计 。 

因为 这 些 原 因 (一 致 性 和 统计 效率 )， 最 大 似 然 通 党 是 机 需 学 习 中 的 首选 估计 。 
当 样 本 数目 小 到 会 发 生 过 拟 合 时 ， 正 则 化 策略 如 权重 衰减 可 用 于 获得 训练 数据 有 限 
时 方差 较 小 的 最 大 似 然 有 偏 版 本 。 


5.6 ” 贝 叶 斯 统计 


至 此 我 们 已 经 讨论 了 频率 派 统计 (在 equentist statistics ) 方法 和 基于 估计 单一 
fH 0 的 方法 ， 然 后 基于 该 估计 作 所 有 的 预测 。 另 一 种 方法 是 在 做 预测 时 会 考虑 所 有 
可 能 的 9。 后 者 属于 贝 叶 斯 统计 〈Bayesian statistics ) 的 范畴 。 

正如 第 5.4.1 节 中 讨论 的 ， 频 率 派 的 视角 是 真实 参数 9 是 未 知 的 定 值 ， 而 点 估计 
Ô 是 考虑 数据 集 上 函数 ( 可 以 看 作 是 随机 的 ) 的 随机 变量 。 

贝 叶 斯 统计 的 视角 完全 不 同 。 贝 叶 斯 用 概率 反映 知识 状态 的 确定 性 程度 。 数 据 
集 能 够 被 直接 观测 到 ， 因 此 不 是 随机 的 。 另 一 方面 ， 真 实 参数 9 是 未 知 或 不 确定 的 ， 
因此 可 以 表示 成 随机 变量 。 

在 观察 到 数据 前 ， 我 们 将 9 的 已 知 知识 表示 成 先 验 概率 分 布 (prior probability 
distribution ), p(@) (有 时 简单 地 称 为 “ 先 验 ”)。 一 般 而 言 ， 机 器 学 习 实 践 者 会 选择 
— PAS RZ AY CBN, EY) 先 验 分 布 ， 反 映 在 观测 到 任何 数据 前 参数 9 的 高 度 
不 确定 性 。 例 如 ， 我 们 可 能 会 假设 先 验 9 在 有 限 区 间 中 均匀 分 布 。 许 多 先 验 偏好 于 
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“更 简单 ”的 解 ( 如 小 幅度 的 系数 ， 或 是 接近 常数 的 函数 )。 

现在 假设 我 们 有 一 组 数据 样本 {z@),.…,zt6}。 通 过 贝 叶 斯 规则 结合 数据 似 然 
p(c,...,0° | 0) 和 先 验 ， 我 们 可 以 恢复 数据 对 我 们 关于 9 信念 的 影响 : 
zzZon) | 0)p(0) 
pe, 2.50) ) 
EN Mn aS AS Ta PB, TOTP hee RT yA re MI a TAB, OL 
CR Ay ota SA PE, IPR PES CLS REER ASL. 

相对 于 最 大 似 然 估计 ， 贝 叶 斯 估计 有 两 个 重要 区 别 。 第 一 , 不 像 最 大 似 然 方 法 预 
测 时 使 用 9 的 点 估计 ， 贝 叶 斯 方法 使 用 9 的 全 分 布 。 例 如 ， 在 观测 到 m 个 样本 后 ， 
下 一 个 数据 样本 rtd 的 预测 分 布 如 下 : 


p(@ | a)... , 0°) = p( 





(5.67) 








per | a.) = [oo | 0)p(0 | a™,..., 2°) do. (5.68) 





这 里 ， 每 个 具有 正 概 率 密 度 的 9 的 值 有 助 于 下 一 个 样本 的 预测 ， 其 中 贡献 由 后 验 密 
度 本 身 加 权 。 在 观测 到 数据 集 {2 中 ,.….. ,zx } 之 后 ， 如 果 我 们 仍然 非常 不 确定 9 的 
值 ， 那 么 这 个 不 确定 性 会 直接 包含 在 我 们 所 做 的 任何 预测 中 。 

在 第 5.4 节 中 ， 我 们 已 经 探讨 频率 派 方 法 解决 给 定点 估计 9 的 不 确定 性 的 方法 
是 评估 方差 :估计 的 方差 评估 了 观测 数据 重新 从 观测 数据 中 采样 后 ， 估 计 可 能 如 何 
变化 。 对 于 如 何 处 理 估计 不 确定 性 的 这 个 问题 ， 贝 叶 斯 派 的 答案 是 积分 ， 这 往往 会 
防止 过 拟 合 。 当 然 ， 积 分 仅仅 是 概率 法 则 的 应 用 ,使 贝 叶 斯 方法 容易 验证 ， 而 频率 
派 机 带 学 习 基于 相当 特别 的 决定 构建 了 一 个 估计， 将 数据 集 里 的 所 有 信息 归纳 到 一 
个 单独 的 点 估计 。 

贝 叶 斯 方法 和 最 大 似 然 方法 的 第 二 个 最 大 区 别 是 由 贝 叶 斯 先 验 分 布 造成 的 。 先 
验 能 够 影响 概率 质量 密度 朝 参 数 空间 中 偏好 先 验 的 区 域 偏 移 。 实 践 中 ， 先 验 通常 表 
现 为 偏好 更 简单 或 更 光滑 的 模型 。 对 贝 叶 斯 方法 的 批判 认为 先 验 是 人 为 主观 判断 影 
响 预 测 的 来 源 。 

当 训 练 数据 很 有 限时 ， 贝 叶 斯 方法 通常 泛 化 得 更 好 ,但 是 当 训 练 样本 数目 很 大 
时 ， 通 常会 有 很 大 的 计算 代价 。 





示例 : 贝 叶 斯 线性 回归 ”我 们 使 用 贝 叶 斯 估计 方法 学 习 线 性 回归 的 参数 。 在 线性 回 
归 中 ， 我 们 学 习 从 输入 向 量 ze R” 预测 标量 y ER 的 线性 映射 。 该 预测 由 向 量 
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we R” 参数 化 : 
ĝ = w' z. (5.69) 
给 定 一 组 m 个 训练 样本 (XC) ,yaio)， 我 们 可 以 表示 整个 训练 集 对 y 的 预测 
gin) = xin) ay, (5.70) 
表示 为 yE 上 的 高 斯 条 件 分 布 ， 我 们 得 到 
p(y) | x) an) = N (yen); XO) ay, T) (5.71) 


1 i 4 ， 
ox exp (- a ata _ X(train) w) (yt Xtrain) w)) , 


(5.72) 





其 中 ， 我 们 根据 标准 的 MSE 公 式 假 设 y 上 的 高 斯 方差 为 1。 在 下 文中 ， 为 减少 符号 
HMH, RI (X, yti) 简单 表示 为 (X, y)o 

为 确定 模型 参数 向 量 w 的 后 验 分 布 ， 我 们 首先 需要 指定 一 个 先 验 分 布 。 先 验 应 
该 反映 我 们 对 这 些 参 数 取 值 的 信念 。 虽 然 有 时 将 我 们 的 先 验 信念 表示 为 模型 的 参数 
很 难 或 很 不 自然 ,但 在 实践 中 我 们 通常 假设 一 个 相当 广泛 的 分 布 来 表示 9 的 高 度 不 
确定 性 。 实 数值 参数 通常 使 用 高 斯 作为 先 验 分 布 : 





p(w) = N (w; Ho, Ao) x exp (ie = Ho) AT (w = H)) ， (5.73) 


HP, po 和 Au 分 别 是 先 验 分 布 的 均值 向 量 和 协 方差 矩阵 。} 
确定 好 先 验 后 ， 我 们 现在 可 以 继续 确定 模型 参数 的 后 验 分 布 。 


p(w | X, y) x p(y | X, w)p(w) (5.74) 
x exp (By Xu)" (y— Xu) ) exp (—F(w— mo)" Az (w— mo) ) 
(5.75) 


1 
x exp (3 (一 2 Xw+ w' X' Xw+w'Aj'w- 24) Aa) ) . (5.76) 





现在 我 们 定义 Am = (X' X +A A um = Am(X y + Az Ho) EXE 
































“除非 有 理由 使 用 协 方差 矩阵 的 特定 结构 ， 我 们 通常 假设 其 为 对 角 协 方差 矩阵 Ao = diag( 和 0)。 
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变量 ,我 们 发 现 后 验 可 改写 为 高 斯 分 布 : 


1 sok ens 1 = 
p(w | Xu) oc exp (Hw m) AR (w= pn) + FURAR) 77) 





x exp (—5(w = pn) Aa wp) ) (5.78) 


所 有 不 包括 的 参数 向 量 w 的 项 都 已 经 被 删 去 了 ; 它们 意味 着 分 布 的 积分 必须 归 一 这 
个 事实 。 式 (3.23) 显示 了 如 何 标准 化 多 元 高 斯 分 布 。 

检查 此 后 验 分 布 可 以 让 我 们 获得 贝 叶 斯 推断 效果 的 一 些 直觉 。 大 多 数 情况 下 ， 
我 们 设置 poo = 0。 如 果 我 们 设置 Ao = H, IBA um 对 w 的 估计 就 和 频率 派 带 权重 
衰减 惩罚 ow! w 的 线性 回归 的 估计 是 一 样 的 。 一 个 区 别 是 若 a 设 为 0 则 贝 叶 斯 佑 
计 是 未 定义 的 一 一 我 们 不 能 将 贝 叶 斯 学 习 过 程 初始 化 为 一 个 无 限 宽 的 w 先 验 。 更 重 
要 的 区 别 是 贝 叶 斯 估计 会 给 出 一 个 协 方差 矩阵 ， 表 示 w 所 有 不 同 值 的 可 能 范围 ， 而 
不 仅 是 佑 计 pm 








5.6.1 最 大 后 验 (MAP) 估计 


原则 上 ， 我 们 应 该 使 用 参数 9 的 完整 贝 叶 斯 后 验 分 布 进行 预测 ， 但 单 点 估计 
常常 也 是 需要 的 。 希 望 使 用 点 估计 的 一 个 常见 原因 是 ， 对 于 大 多 数 有 意义 的 模型 而 
言 ， 大 多 数 涉 及 到 贝 叶 斯 后 验 的 计算 是 非常 玉手 的 ， 点 估计 提供 了 一 个 可 行 的 近似 
解 。 我 们 仍然 可 以 让 先 验 影响 点 估计 的 选择 来 利用 贝 叶 斯 方法 的 优点 ， 而 不 是 简单 
地 回 到 最 大 似 然 估计 。 一 种 能 够 做 到 这 一 点 的 合理 方式 是 选择 最 大 后 验 ( Maximum 
A Posteriori, MAP) 点 估计 。MAP 估计 选择 后 验 概率 最 大 的 点 〈 或 在 9 是 连续 值 
的 更 常见 情况 下 ， 概 率 密度 最 大 的 点 ): 





OuaP = argmaxp(0 | x) = arg max log p(x | 0) + log p(@). (5.79) 
0 6 


我 们 可 以 认 出 上 式 右边 的 logp(z | 0) 对 应 着 标准 的 对 数 似 然 项 ，log p(6) 对 应 着 先 
验 分 布 。 

例如 ， 考 虑 具有 高 斯 先 验 权重 w 的 线性 回归 模型 。 如 果 先 验 是 N (w; 0, +), 
那么 式 (5.79) 的 对 数 先 验 项 正比 于 熟悉 的 权重 衰减 惩罚 Aw!" w， 加 上 一 个 不 依赖 于 
w 也 不 会 影响 学 习 过 程 的 项 。 因 此 ， 具 有 高 斯 先 验 权重 的 MAP 贝 叶 斯 推断 对 应 着 权 
重 衰减 。 
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正如 全 贝 叶 斯 推 亲 ，MAP 贝 叶 斯 推断 的 优势 是 能 够 利用 来 自 先 验 的 信息 ， 这 些 
言 息 无 法 从 训练 数据 中 获得 。 该 附加 信息 有 助 于 减少 最 大 后 验 点 估计 的 方差 ( 相 比 
于 ML 估计 )。 然 而 ， 这 个 优点 的 代价 是 增加 了 偏差 。 
许多 正规 化 估计 方法 ,例如 权重 衰减 正则 化 的 最 大 似 然 学 习 ， 可 以 被 解释 为 贝 
叶 斯 推断 的 MAP 近似 。 这 个 适应 于 正则 化 时 加 到 目标 函数 的 附加 项 对 应 着 log p(0)。 
并 非 所 有 的 正则 化 惩罚 都 对 应 着 MAP 贝 叶 斯 推断 。 例 如, 有些 正则 化 项 可 能 不 是 一 
个 概率 分 布 的 对 数 。 还 有 些 正则 化 项 依赖 于 数据 ， 当 然 也 不 会 是 一 个 先 验 概率 分 布 。 
MAP 贝 叶 斯 推断 提供 了 一 个 直观 的 方法 来 设计 复杂 但 可 解释 的 正则 化 项 。 例 
如 ， 更 复杂 的 惩罚 项 可 以 通过 混合 高 斯 分 布 作为 先 验 得 到 ， 而 不 是 一 个 单独 的 高 斯 
分 布 (Nowlan and Hinton, 1992). 








5.7 监督 学 习 算 法 





回顾 第 5.1.3 节 ， 粗 略 地 说 ， 监 督学 习 算法 是 给 定 一 组 输入 z 和 输出 y 的 训练 
集 ， 学 习 如 何 关联 输入 和 输出 。 在 许多 情况 下 ， 输 出 y 很 难 自动 收集 ， 必 须 由 人 来 
提供 “监督 "， 不 过 该 术语 仍然 适用 于 训练 集 目标 可 以 被 自动 收集 的 情况 。 





5.7.1 ”概率 监督 学 习 








本 书 的 大 部 分 监督 学 习 算法 都 是 基于 估计 概率 分 布 p(y | z) 的 。 我 们 可 以 使 用 最 
大 似 然 估 计 找 到 对 于 有 参 分 布 族 p(y | x; 9) 最 好 的 参数 向 量 9。 


我 们 已 经 看 到 ， 线 性 回归 对 应 于 分 布 族 
ply | #8) = N(y;0' a, I). (5.80) 


通过 定义 一 族 不 同 的 概率 分 布 ， 我 们 可 以 将 线性 回归 扩展 到 分 类 情况 中 。 如 果 我 们 
有 两 个 类 ， 类 0 和 类 1， 那 么 我 们 只 需要 指定 这 两 类 之 一 的 概率 。 类 1 的 概率 决定 
了 类 0 的 概率 ， 因 为 这 两 个 值 加 起 来 必须 等 于 1。 

我 们 用 于 线性 回归 的 实数 正 态 分 布 是 用 均值 参数 化 的 。 我 们 提供 这 个 均值 的 任 
何 值 都 是 有 效 的 。 二 元 变量 上 的 的 分 布 稍微 复杂 些 ， 因 为 它 的 均值 必须 始终 在 0 和 
1 之 间 。 解 决 这 个 问题 的 一 种 方法 是 使 用 logistic sigmoid 函数 将 线性 函数 的 输出 压 
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缩 进 区 间 (0,1)。 该 值 可 以 解释 为 概率 : 
ply = 1 | 20) = o(0' æ). (5.81) 

这 个 方法 被 称 为 逻辑 回归 (logistic regression )， 这 个 名 字 有 点 奇怪 ， 因 为 该 模型 用 
于 分 类 而 非 回归 。 

线性 回归 中 ， 我 们 能 够 通过 求解 正规 方程 以 找到 最 佳 权 重 。 相 比 而 言 ， 逻 辑 回 
归 会 更 困难 些 。 其 最 佳 权重 没有 闭 解 。 反 之 ， 我 们 必须 最 大 化 对 数 似 然 来 搜索 最 优 
解 。 我 们 可 以 通过 梯度 下 降 算法 最 小 化 负 对 数 似 然 来 搜索 。 

通过 确定 正确 的 输入 和 输出 变量 上 的 有 参 条 件 概率 分 布 族 ， 相 同 的 策略 基本 上 
可 以 用 于 任何 监督 学 习 问 题 。 





5.7.2 ”支持 向 量 机 


支持 向 量 机 (support vector machine, SVM ) 是 监督 学 习 中 最 有 影响 力 的 方法 
之 一 (Boser et al., 1992; Cortes and Vapnik, 1995)。 类 似 于 逮 辑 回归 ， 这 个 模型 也 
是 基于 线性 函数 wla+b 的 。 不 同 于 逻辑 回归 的 是 ， 支 持 向 量 机 不 输出 概率 ， 只 输 
出 类 别 。 当 wla+b 为 正 时 ， 支持 向 量 机 预测 属于 正 类 。 类 似 地 ， 当 w etb 为 负 
时 ， 支 持 向 量 机 预测 属于 负 类 。 

支持 向 量 机 的 一 个 重要 创新 是 核 技巧 (kernel trick )。 核 技巧 观察 到 许多 机 器 学 
习 算 法 都 可 以 写成 样本 间 点 积 的 形式 。 例 如 ， 支 持 向 量 机 中 的 线性 函数 可 以 重 写 为 

















wie+b=b+ >， ajs al, (5.82) 
izi 
HP, 2 是 训练 样本 ，a 是 系数 向 量 。 学 习 算 法 重 写 为 这 种 形式 允许 我 们 将 z 2 
换 为 特征 函数 (x) 的 输出 ， 点 积 替 换 为 被 称 为 核 函 数 (kernel function ) 的 函数 
k(x, 2) = gz) .ob(z0)。 运 算 符 . 表示 类 似 于 O(a)" O(a) 的 点 积 。 对 于 某 些 特 
征 空间 ， 我 们 可 能 不 会 书面 地 使 用 向 量 内 积 。 在 某 些 无 限 维 空间 中 ,我 们 需要 使 用 
其 他 类 型 的 内 积 ， 如 基于 积分 而 非 加 和 的 内 积 。 这 种 类 型 内 积 的 完整 介绍 超出 了 本 
书 的 范围 。 
使 用 核 估 计 蔡 换 点 积 之 后 ， 我 们 可 以 使 用 如 下 函数 进行 预测 











f(z) =b+ >》 ajk(a, a). (5.83) 
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这 个 函数 关于 z 是 非 线 性 的 ， 关 于 9(z) 是 线性 的 。a 和 f(x) 之 间 的 关系 也 是 线性 
的 。 核 函数 完全 等 价 于 用 olx) 预 处 理 所 有 的 输入 ， 然 后 在 新 的 转换 空间 学 习 线性 模 
型 。 





核 技巧 十 分 强大 有 两 个 原因 。 首 先 ， 它 使 我 们 能 够 使 用 保证 有 效 收敛 的 凸 优化 
技术 来 学 习 非 线性 模型 (关于 z 的 函数 )。 这 是 可 能 的 ， 因 为 我 们 可 以 认为 $ 是 固 
定 的 ,， 仅 优化 ag， 即 优化 算法 可 以 将 决策 函数 视 为 不 同 空间 中 的 线性 函数 。 其 二 , 核 
函数 的 实现 方法 通常 有 比 直接 构建 wz) 再 算 点 积 高 效 很 多 。 

在 某 些 情 况 下 ，%(z) 甚至 可 以 是 无 限 维 的 ， 对 于 普通 的 显 式 方法 而 言 ， 这 将 是 
无 限 的 计算 代价 。 在 很 多 情况 下 ， 即 使 o) ER, k a’) 却 会 是 一 个 关于 z 
非 线 性 的 、 易 算 的 函数 。 举 个 无 限 维 空间 易 算 的 核 的 例子 ,我们 构建 一 个 作用 于 非 
负 整 数 z 上 的 特征 映射 %z)。 假 设 这 个 映射 返回 一 个 由 开头 xz 个 1， 随 后 是 无 限 个 
0 的 向 量 。 我 们 可 以 写 一 个 核 函数 k(x, 2) = min(zizG)， 完 全 等 价 于 对 应 的 无 限 
维 点 积 


Wy IANO 


最 常用 的 核 函数 是 高 斯 核 (Gaussian kernel ), 








k(u, v) = N(u— v;0,071), (5.84) 





其 中 N(x; po, E) 是 标准 正 态 密度 。 这 个 核 也 被 称 为 径 向 基 函 数 (radial basis func- 
tion, RBF ) 核 ， 因 为 其 值 沿 v 中 从 习 向 外 辐射 的 方向 减 小 。 高 斯 核对 应 于 无 限 维 空 
间 中 的 点 积 ， 但 是 该 空间 的 推导 没有 整数 上 最 小 核 的 示例 那么 直观 。 

我 们 可 以 认为 高 斯 核 在 执行 一 种 模板 匹配 (template matching)。 训 练 标 签 y 相 
关 的 训练 样本 zx 变 成 了 类 别 y 的 模版 。 当 测试 点 xz 到 z 的 欧 几 里 得 距离 很 小 ， 对 
应 的 高 斯 核 响应 很 大 时 ， 表 明 of 和 模版 z 非常 相似 。 该 模型 进而 会 赋予 相对 应 的 训 
练 标签 y 较 大 的 权重 。 总 的 来 说 ， 预 测 将 会 组 合 很 多 这 种 通过 训练 样本 相似 度 加 权 
的 训练 标签 。 

支持 问 量 机 不 是 唯一 可 以 使 用 核 技巧 来 增强 的 算法 。 许 多 其 他 的 线性 模型 也 
可 以 通过 这 种 方式 来 增强 。 使 用 核 技巧 的 算法 类 别 被 称 为 核 机 器 (kernel machine ) 
或 核 方法 (kernel method ) (Williams and Rasmussen, 1996; Schölkopf et al., 1999). 

核 机 器 的 一 个 主要 缺点 是 计算 决策 函数 的 成 本 关于 训练 样本 的 数目 是 线性 的 。 
因为 第 i 个 样本 贡献 ai;k(z, 2) 到 决策 函数 。 支 持 向 量 机 能 够 通过 学 习 主要 包含 零 
的 向 量 w， 以 缓和 这 个 缺点 。 那 么 判断 新 样本 的 类 别 仅 需要 计算 非 零 a; 对 应 的 训 
练 样本 的 核 函 数 。 这 些 训练 样本 被 称 为 支持 向 量 (support vector )。 
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当 数 据 集 很 大 时 ， 核 机 器 的 计算 量 也 会 很 大 。 我 们 将 会 在 第 5.9 节 回顾 这 个 想 
法 。 带 通用 核 的 核 机 器 致力 于 泛 化 得 更 好 。 我 们 将 在 第 5.11 节 解释 原因 。 现 代 深 
度 学 习 的 设计 旨 在 克服 核 机 器 的 这 些 限 制 。 当 前 深度 学 习 的 复兴 始 于 Hinton et al. 
(2006b) 表明 神经 网 络 能 够 在 MNIST 基准 数据 上 胜 过 RBF 核 的 支持 向 量 机 。 





5.7.3 ”其 他 简单 的 监督 学 习 算法 


我 们 已 经 简要 介绍 过 为 一 个 非 概 率 监督 学 习 算法 , 最 近邻 回归 。 更 一 般 地 ，k- 最 
近邻 是 一 类 可 用 于 分 类 或 回归 的 技术 。 作 为 一 个 非 参 数学 习 算法 ，k- 最 近邻 并 不 局 
限于 固定 数目 的 参数 。 我 们 通常 认为 -最 近邻 算法 没有 任何 参数 ， 而 是 使 用 训练 数 
据 的 简单 函数 。 事 实 上 ， 它 甚至 也 没有 一 个 真正 的 训练 阶段 或 学 习 过 程 。 反 之 ,在 
测试 阶段 我 们 希望 在 新 的 测试 输入 z 上 产生 y, 我 们 需要 在 训练 数据 X ERA z 的 
k- 最 近邻 。 然 后 我 们 返回 训练 集 上 对 应 的 y 值 的 平均 值 。 这 几乎 适用 于 任何 类 型 可 
以 确定 y 值 平 均值 的 监督 学 习 。 在 分 类 情况 中 ， 我 们 可 以 关于 one-hot 编码 向 量 e 
求 平均 ， 其 中 c, = 1， 其 他 的 i 值 取 ci = 0。 然 后 ， 我 们 可 以 解释 这 些 one-hot 编码 
的 均值 为 类 别 的 概率 分 布 。 作 为 一 个 非 参数 学 习 算 法 ,天 近邻 能 达到 非常 高 的 容量 。 
例如 ， 假 设 我 们 有 一 个 用 -0-1 误差 度量 性 能 的 多 分 类 任务 。 在 此 设 定 中 ， 当 训练 样 
本 数目 趋向 于 无 穷 大 时 ，1- 最 近邻 收敛 到 两 倍 贝 叶 斯 误差 。 超 出 贝 叶 斯 误差 的 原因 
是 它 会 随机 从 等 距离 的 临近 点 中 随机 挑 一 个 。 而 存在 无 限 的 训练 数据 时 ， 所 有 测试 
点 Zz 周围 距离 为 零 的 邻近 点 有 无 限 多 个 。 如 果 我 们 使 用 所 有 这 些 临 近 点 投票 的 决策 
方式 ,而 不 是 随机 挑选 一 个 , 那么 该 过 程 将 会 收敛 到 贝 叶 斯 错误 率 。 太 最 近邻 的 高 容 
量 使 其 在 训练 样本 数目 大 时 能 够 获取 较 高 的 精度 。 然 而 ， 它 的 计算 成 本 很 高 ， 另 外 
在 训练 集 较 小 时 泛 化 能 力 很 差 。k- 最 近邻 的 一 个 弱点 是 它 不 能 学 习 出 哪 一 个 特征 比 
其 他 更 具 识别 力 。 例 如 ， 假 设 我 们 要 处 理 一 个 的 回归 任务 ， 其 中 © RN 是 从 各 向 
同性 的 高 斯 分 布 中 抽取 的 ， 但 是 只 有 一 个 变量 or, 和 结果 相关 。 进 一 步 假 设 该 特征 直 
接 决定 了 输出 ， 即 在 所 有 情况 中 y = zi。 最 近邻 回归 不 能 检测 到 这 个 简单 模式 。 大 
多 数 点 z 的 最 近邻 将 取决 于 zs 到 zioo 的 大 多 数 特征 ， 而 不 是 单独 取决 于 特征 zl。 
因此 ， 小 训练 集 上 的 输出 将 会 非常 随机 。 

RR (decision tree ) 及 其 变种 是 另 一 类 将 输入 空间 分 成 不 同 的 区 域 ， 每 个 区 
域 有 独立 参数 的 算法 (Breiman et al., 1984)。 如 图 5.7 所 示 ， 决 策 树 的 每 个 节点 都 与 
输入 空间 的 一 个 区 域 相关 联 ， 并 且 内 部 节点 继续 将 区 域 分 成 子 节 点 下 的 子 区 域 ( 通 
常 使 用 坐标 轴 拆 分 区 域 )。 空 间 由 此 细 分 成 不 重 辣 的 区 域 ， 叶 节点 和 输入 区 域 之 间 形 
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成 一 一 对 应 的 关系 。 每 个 叶 结 点 将 其 输入 区 域 的 每 个 点 映射 到 相同 的 输出 。 决 策 树 
通常 有 特定 的 训练 算法 ,超出 了 本 书 的 范围 。 如 果 允 许 学 习 任意 大 小 的 决策 树 ， 那 
么 它 可 以 被 视 作 非 参数 算法 。 然 而 实践 中 通常 有 大 小 限制 ， 作 为 正则 化 项 将 其 转变 
成 有 参 模 型 。 由 于 决策 树 通常 使 用 坐标 轴 相 关 的 拆 分 ， 并 且 每 个 子 节点 关联 到 常数 
输出 ， 因 此 有 时 解决 一 些 对 于 逻辑 回归 很 简单 的 问题 很 费力 。 例 如 ， 假 设 有 一 个 二 
分 类 问题 ， 当 za > zl 时 分 为 正 类 ， 则 决策 树 的 分 界 不 是 坐标 轴 对 齐 的 。 因 此 ,决策 
树 将 需要 许多 节点 近似 决策 边界 ， 坐 标 轴 对 齐 使 其 算法 步骤 不 断 地 来 回 穿 梭 于 真正 
的 决策 函数 。 

正如 我 们 已 经 看 到 的 ， 最 近邻 预测 和 决策 树 都 有 很 多 的 局 限 性 。 尺 管 如 此 ， 在 
计算 资源 受 限 制 时 ， 它 们 都 是 很 有 用 的 学 习 算法 。 通 过 思考 复杂 算法 和 -最 近邻 或 
决策 树 之 间 的 相似 性 和 差异 ， 我 们 可 以 建立 对 更 复杂 学 习 算 法 的 直觉 。 

读者 可 以 参考 Murphy (2012); Bishop (2006); Hastie et al. (2001) 或 其 他 机 器 
学 习 教 科 书 了 解 更 多 的 传统 监督 学 习 算法 。 
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(1) 





图 5.7: 描述 一 个 决策 树 如 何 工 作 的 示意 图 。( 上 ) 树 中 每 个 节点 都 选择 将 输入 样本 送 到 左 子 节点 
(0) 或 者 右 子 节 点 (1)。 内 部 的 节点 用 圆圈 表示 , 叶 节 点 用 方块 表示 。 每 一 个 节点 可 以 用 一 个 二 值 的 
字符 串 识 别 并 对 应 树 中 的 位 置 ， 这 个 字符 串 是 通过 给 起 父亲 节点 的 字符 串 添 加 一 个 位 元 来 实现 的 
(0 表示 选择 左 或 者 上 ，1 表示 选择 右 或 者 下 ) (F) 这 个 树 将 空间 分 为 区 域 。 这 个 二 维 平面 说 明 决 
策 树 可 以 分 割 R?。 这 个 平面 中 画 出 了 树 的 节点 ， 每 个 内 部 点 穿 过 分 割 线 并 用 来 给 样本 分 类 ， 叶 节 
点 画 在 样本 所 属 区 域 的 中 心 。 结 果 是 一 个 分 块 常数 函数 ， 每 一 个 叶 节 点 一 个 区 域 。 每 个 叶 需 要 至 
少 一 个 训练 样本 来 定义 ， 所 以 决策 树 不 可 能 用 来 学 习 一 个 局 部 极 大 值 比 训练 样本 数量 还 多 的 函数 。 
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5.8 无 监督 学 习 算 法 


回顾 第 5.1.3 节 ， 无 监督 算法 只 处 理 “ 特 征 ”， 不 操作 监督 信号 。 监 督 和 无 监督 
算法 之 间 的 区 别 没有 规范 严格 的 定义 ， 因 为 没有 客观 的 判断 来 区 分 监督 者 提供 的 值 
是 特征 还 是 目标 。 通 俗 地 说 ， 无 监督 学 习 的 大 多 数 尝试 是 指 从 不 需要 人 为 注释 的 样 
本 的 分 布 中 抽取 信息 。 该 术语 通常 与 密度 估计 相关 ， 学 习 从 分 布 中 采样 、 学 习 从 分 
布 中 去 品 、 寻 找 数据 分 布 的 流 形 或 是 将 数据 中 相关 的 样本 聚 类 。 

一 个 经 典 的 无 监督 学 习 任务 是 找到 数据 的 “最 佳 ” 表示 。 “最 佳 ” 可 以 是 不 同 的 
表示 ， 但 是 一 般 来 说 ， 是 指 该 表示 在 比 本 身 表 示 的 信息 更 简单 或 更 易 访 问 而 受到 一 
些 惩罚 或 限制 的 情况 下 ， 尽 可 能 地 保存 关于 z 更 多 的 信息 。 

有 很 多 方式 定义 较 简 单 的 表示 。 最 常见 的 三 种 包括 低 维 表 示 、 稀 疏 表 示 和 独立 
表示 。 低 维 表示 尝试 将 z 中 的 信息 尽 可 能 压缩 在 一 个 较 小 的 表示 中 。 稀 玻 表 示 将 数 
据 集 竺 和 人 到 输入 项 大 多 数 为 零 的 表示 中 (Barlow, 1989; Olshausen and Field, 1996; 
Hinton and Ghahramani, 1997)。 稀 下 表示 通常 用 于 需要 增加 表示 维 数 的 情况 ， 使 得 
大 部 分 为 零 的 表示 不 会 丢失 很 多 信息 。 这 会 使 得 表示 的 整体 结构 倾向 于 将 数据 分 布 
在 表示 空间 的 坐标 轴 上 。 独 立 表示 试图 分 开 数 据 分 布 中 变化 的 来 源 ， 使 得 表示 的 维 
度 是 统计 独立 的 。 

当然 这 三 个 标准 并 非 相互 排斥 的 。 低 维 表示 通常 会 产生 比 原始 的 高 维 数据 具有 
较 少 或 较 弱 依赖 关系 的 元 素 。 这 是 因为 减少 表示 大 小 的 一 种 方式 是 找到 并 消除 宛 余 。 
识别 并 去 除 更 多 的 宛 余 使 得 降 维 算 法 在 丢失 更 少 信息 的 同时 显现 更 大 的 压缩 。 

表示 的 概念 是 深度 学 习 核 心 主题 之 一 ， 因 此 也 是 本 书 的 核心 主题 之 一 。 本 节 会 
介绍 表示 学 习 算法 中 的 一 些 简单 示例 。 总 的 来 说 ， 这 些 示例 算法 会 说 明 如 何 实施 上 
面 的 三 个 标准 。 剩 余 的 大 部 分 章节 会 介绍 额外 的 表示 学 习 算 法 ， 它 们 以 不 同方 式 处 
理 这 三 个 标准 或 是 引入 其 他 标准 。 





























5.8.1 ” 主 成 分 分 析 


在 第 2.12 节 中 ， 我 们 看 到 PCA 算法 提供 了 一 种 压缩 数据 的 方式 。 我 们 也 可 以 
BE PCA 视 为 学 习 数 据 表示 的 无 监督 学 习 算 法 。 这 种 表示 基于 上 述 简 单 表 示 的 两 个 标 
HE. PCA 学 习 一 种 比 原始 输入 维 数 更 低 的 表示 。 它 也 学 习 了 一 种 元 素 之 间 彼 此 没有 
线性 相关 的 表示 。 这 是 学 习 表 示 中 元 素 统计 独立 标准 的 第 一 步 。 要 实现 完全 独立 性 ， 
表示 学 习 算法 也 必须 去 掉 变 量 间 的 非 线 性 关系 。 
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如 图 5.8 所 示 ，PCA 将 输入 z 投影 表示 成 z， 学 习 数 据 的 正 交 线性 变换 。 在 
第 2.12 节 中 ， 我 们 看 到 了 如 何 学 习 重 建 原 始 数 据 的 最 佳 一 维 表示 ( 就 均 方 误差 而 
言 )， 这 种 表示 其 实 对 应 着 数据 的 第 一 个 主要 成 分 。 因 此 ， 我 们 可 以 用 PCA 作为 保 
留 数据 尽 可 能 多 信息 的 降 维 方法 ( 再 次 就 最 小 重 构 误差 平方 而 言 )。 在 下 文中 ， 我 们 
将 研究 PCA 表示 如 何 使 原始 数据 表示 X 去 相关 的 . 


20 
© 
10 
g 0 g 
—10 @ 
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图 5.8: PCA 学 习 一 种 线性 投影 ， 使 最 大 方差 的 方向 和 新 空间 的 轴 对 齐 。( 左 ) 原始 数据 包含 了 z 
的 样本 。 在 这 个 空间 中 ,方差 的 方向 与 轴 的 方向 并 不 是 对 齐 的 。( 右 ) 变换 过 的 数据 > = 2" W E 
轴 21 的 方向 上 有 最 大 的 变化 。 第 二 大 变化 方差 的 方向 沿 着 轴 z2。 























假设 有 一 个 mxn WEIER X, HENE, Ele] = 0。 若 非 如 此 ， 通 
过 预 处 理 步 又 使 所 有 样本 减 去 均值 ， 数 据 可 以 很 容易 地 中 心 化 。 
X 对 应 的 无 仿 样 本 协 方差 矩阵 给 定 如 下 





1 
Var[z] = XX (5.85) 
ma 





PCA 通过 线性 变换 找到 一 个 Var[ EAMES z= W' to 
在 第 2.12 节 , 我们 已 知 设计 和 矩 阵 X 的 主 成 分 由 XTX 的 特征 向 量 给 定 。 从 这 个 
ME, RITE 
X' X= WAW". (5.86) 
本 节 中 ， 我 们 会 探索 主 成 分 的 另 一 种 推导 。 主 成 分 也 可 以 通过 奇异 值 分 解 (SVD) 得 
到 。 具 体 来 说 ， 它 们 是 X 的 右 奇 异 向 量 。 为 了 说 明 这 点 ,假设 W 是 奇异 值 分 解 
X= USW' WATE. LW 作为 特征 向 量 基 , 我 们 可 以 得 到 原来 的 特征 向 量 
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方程 : 





X'X=(USW’')' USW’ = ws?w'. (5.87) 


SVD 有 助 于 说 明 PCA 后 的 Var[z] 是 对 角 的 。 使 用 X I SVD ARE, X 的 方差 
可 以 表示 为 





Var 四 = ——__X' X (5.88) 
1 yy ie Te T 
=- Uw] UXW (5.89) 
1 R; 
= —_ws'U' USW (5.90) 
m-— 1 
1 , 
_ 91 
— wa", (5.91) 





其 中 ,我 们 使 用 U" U = IT， 因为 根据 奇异 值 的 定义 矩阵 上 是 正 交 的 。 这 表明 z 的 
协 方差 满足 对 角 的 要 求 : 





Var 四 一 二 2 Z (5.92) 
me 
1 = 
=-—_W'x'x'W (5.93) 
m— 1 
-| www w (5.94) 
m-— 1 
1 
= a" ; 
moe? (5.95) 





其 中 ， 再 次 使 用 SVD 的 定义 有 W W= 

以 上 分 析 指 明 当 我 们 通过 线性 变换 W 将 数据 z 投影 到 z 时 ， 得 到 的 数据 表示 
的 协 方差 矩阵 是 对 角 的 CB? )， 立 刻 可 得 2 中 的 元 素 是 彼此 无 关 的 。 

PCA 这 种 将 数据 变换 为 元 素 之 间 彼 此 不 相关 表示 的 能 力 是 PCA 的 一 个 重要 性 
质 。 它 是 消除 数据 中 未 知 变化 因素 的 简单 表示 示例 。 在 PCA 中 ， 这 个 消除 是 通过 寻 
找 输入 空间 的 一 个 旋转 (由 到 确定 )， 使 得 方差 的 主 坐 标 和 z 相关 的 新 表示 空间 的 
基 对 齐 。 

虽然 相关 性 是 数据 元 素 间 依赖 关系 的 一 个 重要 范畴 ， 但 我 们 对 于 能 够 消除 更 复 
杂 形 式 的 特征 依赖 的 表示 学 习 也 很 感 兴趣 。 对 此 ， 我 们 需要 比 简单 线性 变换 更 强 的 
TEH 


aN OO 
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5.8.2 ” -均值 聚 类 





另外 一 个 简单 的 表示 学 习 算法 是 大 均 值 聚 类 。 大 均值 聚 类 算法 将 训练 集 分 成 大 
个 靠近 彼此 的 不 同样 本 聚 类 。 因 此 我 们 可 以 认为 该 算法 提供 了 万 维 的 one-hot 编码 
向 量 h 以 表示 输入 z。 当 a 属于 聚 类 i 时 ， 有 hh 1，h 的 其 他 项 为 零 。 

人 均值 聚 类 提供 的 one-hot 编码 也 是 一 种 稀 足 表示 ， 因 为 每 个 输入 的 表示 中 大 
部 分 元 素 为 零 。 之 后 ， 我 们 会 介绍 能 够 学 习 更 灵活 的 稀 朴 表示 的 一 些 其 他 算法 CR 
示 中 每 个 输入 = 不 只 一 个 非 零 项 )。one-hot 编码 是 稀 琉 表示 的 一 个 极端 示例 ， 丢 失 
了 很 多 分 布 式 表示 的 优点 。one-hot 编码 仍然 有 一 些 统计 优点 ( 自然 地 传达 了 相同 聚 
类 中 的 样本 彼此 相似 的 观点 )， 也 具有 计算 上 的 优势 ， 因 为 整个 表示 可 以 用 一 个 单独 
的 整数 表示 。 

记 均 值 聚 类 初始 化 个 不 同 的 中 心 点 {jp 中， (9j， 然 后 迭代 交换 两 个 不 同 
的 步骤 直到 收敛 。 步 骤 一 ， 每 个 训练 样本 分 配 到 最 近 的 中 心 点 J 所 代表 的 聚 类 i 
步 又 二 ， 每 一 个 中 心 点 pO 更 新 为 聚 类 i 中 所 有 训练 样本 za) 的 均值 。 

关于 聚 类 的 一 个 问题 是 聚 类 问题 本 身 是 病态 的 。 这 是 说 没有 单一 的 标准 去 度量 
聚 类 的 数据 在 真实 世界 中 效果 如 何 。 我 们 可 以 度量 聚 关 的 性 质 ， 例 如 类 中 元 素 到 类 
中 心 点 的 欧 几 里 得 距离 的 均值 。 这 使 我 们 可 以 判断 从 聚 类 分 配 中 重建 训练 数据 的 效 
果 如 何 。 然 而 我 们 不 知道 聚 类 的 性 质 是 否 很 好 地 对 应 到 真实 世界 的 性 质 。 此 外 ， 可 
能 有 许多 不 同 的 聚 类 都 能 很 好 地 对 应 到 现实 世界 的 某 些 属性 。 我 们 可 能 希望 找到 和 
一 个 特征 相关 的 聚 类 ， 但 是 得 到 了 一 个 和 任务 无 关 的 ， 同 样 是 合理 的 不 同 聚 类 。 例 
如 ， 假 设 我 们 在 包含 红色 卡车 图 片 、 红 色 汽车 图 片 、 灰 色 卡车 图 片 和 灰色 汽车 图 片 
的 数据 集 上 运行 两 个 聚 类 算法 。 如 果 每 个 聚 类 算法 聚 两 类 ， 那 么 可 能 一 个 算法 将 汽 
车 和 卡车 各 聚 一 类 ， 另 一 个 根据 红色 和 灰色 各 聚 一 类 。 假 设 我 们 还 运行 了 第 三 个 到 
类 算法 ， 用 来 决定 类 别 的 数目 。 这 有 可 能 聚 成 了 四 类 ,红色 卡车 、 红 色 汽 车 、 灰 色 卡 
车 和 灰色 汽车 。 现 在 这 个 新 的 聚 类 至 少 抓 住 了 属性 的 信息 ， 但 是 丢失 了 相似 性 信息 。 
红色 汽车 和 灰色 汽车 在 不 同 的 类 中 ， 正 如 红色 汽车 和 灰色 卡车 也 在 不 同 的 类 中 。 该 
聚 类 算法 没有 售 诉 我 们 灰色 汽车 和 红色 汽车 的 相似 度 比 灰 色 卡 车 和 红色 汽车 的 相似 
度 更 高 。 我 们 只 知道 它们 是 不 同 的 。 

这 些 问 题 说 明了 一 些 我 们 可 能 更 偏好 于 分 布 式 表示 ( 相对 于 one-hot 表示 而 言 ) 
的 原因 。 分 布 式 表示 可 以 对 每 个 车 辆 赋予 两 个 属性 一 一 个 表示 它 颜色 ， 一 个 表示 
它 是 汽车 还 是 卡车 。 目 前 仍然 不 清楚 什么 是 最 优 的 分 布 式 表示 (学 习 算法 如 何 知道 
我 们 关心 的 两 个 属性 是 颜色 和 是 否 汽车 或 卡车 ， 而 不 是 制造 商 和 车 龄 ? )， 但 是 多 个 
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属性 减少 了 算法 去 猜 我 们 关心 哪 一 个 属性 的 负担 ， 人 允许 我 们 通过 比较 很 多 属性 而 非 
测试 一 个 单一 属性 来 细 粒 度 地 度量 相似 性 





5.9 ”随机 梯度 下 降 


几乎 所 有 的 深度 学 习 算法 都 用 到 了 一 个 非常 重要 的 算法 随机 梯度 下 降 
(stochastic gradient descent, SGD ) 。 随 机 梯度 下 降 是 第 4.3 节 介绍 的 梯度 下 降 算 
法 的 一 个 扩展 。 

机 需 学 习 中 反复 出 现 的 一 个 问题 是 好 的 谤 化 需要 大 的 训练 集 ， 但 大 的 训练 集 的 
计算 代价 也 更 大 。 

机 器 学 习 算法 中 的 代价 函数 通常 可 以 分 解 成 每 个 样本 的 代价 函数 的 总 和 。 例 如 ， 
训练 数据 的 负 条 件 对 数 似 然 可 以 写成 


J(0) 一 下 -yp L P ) y® 0), (5.96) 

















其 中 工 是 每 个 样本 的 损失 L(x,y,0) = — log p(y | a0). 
对 于 这 些 相 加 的 代价 函数 ， 下 降 需 要 计算 
VoJ(@ wo Vole ) y, 0). (5.97) 
这 个 运算 的 计算 代价 是 O(m)。 随 着 训练 集 规模 增长 为 数 十 亿 的 样本 ， 计 算 一 步 梯 度 
会 消耗 相当 长 的 时 间 。 
随机 梯度 下 降 的 核心 是 ， 梯 度 是 期 望 。 期 望 可 使 用 小 规模 的 样本 近似 估计 。 具 


体 而 言 ， 在 算法 的 每 一 步 ， 我 们 从 训练 集中 均匀 抽出 一 小 批量 (minibatch ) 样本 
B = {209,..., zx"™)}。 小 批量 的 数目 m a at 从 一 到 几 百 。 重 





要 的 是 ， 当 训练 集 大 小 m 增长 时 ，my 是 固定 的 。 我 们 可 能 在 拟 合 几 十 亿 的 样 
本 时 ， D A 
梯度 的 估计 可 以 表示 成 
1 m’ | 
g= Ve dL", 4,8). (5.98) 


i=l 
使 用 来 自 小 批量 B 的 样本 。 然 后 ， 随 机 梯度 下 降 算法 使 用 如 下 的 梯度 下 降 估 计 : 
0+0- eg, (5.99) 


wwaibbt.com DODDDDODOD 


dourbz/350DFo 


5.10 构建 机 器 学 习 算 法 133 





其 中 ，e 是 学 习 率 。 

梯度 下 降 往 往 被 认为 很 慢 或 不 可 靠 。 以 前 ， 将 梯度 下 降 应 用 到 非 凸 优化 问题 被 
认为 很 鲁莽 或 没有 原则 。 现 在 ， 我 们 知道 梯度 下 降 用 于 本 书 第 二 部 分 中 的 训练 时 效 
果 不 错 。 优 化 算法 不 一 定 能 保证 在 合理 的 时 间 内 达到 一 个 局 部 最 小 值 ， 但 它 通常 能 
及 时 地 找到 代价 函数 一 个 很 小 的 值 ， 并 且 是 有 用 的 。 

随机 梯度 下 降 在 深度 学 习 之 外 有 很 多 重要 的 应 用 。 它 是 在 大 规模 数据 上 训练 大 
型 线性 模型 的 主要 方法 。 对 于 固定 大 小 的 模型 ， 每 一 步 随机 梯度 下 降 更 新 的 计算 量 
不 取决 于 训练 集 的 大 小 m。 在 实践 中 ， 当 训练 集 大 小 增长 时 ， 我 们 通常 会 使 用 一 个 
更 大 的 模型 ， 但 这 并 非 是 必须 的 。 达 到 收敛 所 需 的 更 新 次 数 通 常会 随 训 练 集 规模 增 
大 而 增加 。 然 而 ， 当 m 趋向 于 无 穷 大 时 ， 该 模型 最 终 会 在 随机 梯度 下 降 抽 样 完 训 练 
集 上 的 所 有 样本 之 前 收敛 到 可 能 的 最 优 测试 误差 。 继 续 增加 m 不 会 延长 达到 模型 可 
能 的 最 优 测试 误差 的 时 间 。 从 这 点 来 看 ， 我 们 可 以 认为 用 SGD 训练 模型 的 渐 近 代价 
是 关于 m 的 函数 的 O(1) 级 别 。 

在 深度 学 习 兴 起 之 前 ， 学 习 非 线性 模型 的 主要 方法 是 结合 核 技 巧 的 线性 模型 。 
很 多 核 学 习 算 法 需要 构建 一 个 m x m 的 矩阵 Gi = h(a, £), 构建 这 个 矩阵 的 计 
算 量 是 O(m2)。 当 数据 集 是 几 十 亿 个 样本 时 ,， 这 个 计算 量 是 不 能 接受 的 。 在 学 术 界 ， 
深度 学 习 从 2006 年 开始 收 到 关注 的 原因 是 ， 在 数 以 万 计 样 本 的 中 等 规模 数据 集 上 ， 
深度 学 习 在 新 样本 上 比 当 时 很 多 热门 算法 泛 化 得 更 好 。 不 久 后 ， 深 度 学 习 在 工业 界 
受到 了 更 多 的 关注 ， 因 为 其 提供 了 一 种 训练 大 数据 集 上 的 非 线性 模型 的 可 扩展 方式 。 
我 们 将 会 在 第 八 章 继续 探讨 随机 梯度 下 降 及 其 很 多 改进 方法 。 














5.10 ”构建 机 器 学 习 算 法 


几乎 所 有 的 深度 学 习 算 法 都 可 以 被 描述 为 一 个 相当 简单 的 配方 : 特定 的 数据 集 、 
代价 函数 、 优 化 过 程 和 模型 。 
例如 ， 线 性 回归 算法 由 以 下 部 分 组 成 : XA y 构成 的 数据 集 ， 代 价 函数 














J(w, b) = Ex,y~Paata log Pmodel (Y | z), (5.100) 


模型 是 Pmodel (Y | x) = N(y; x! w T b, 1) ， 在 大 多 数 情况 下 ’ 优化 算法 可 以 定义 为 求 
解 代 价 函 数 梯度 为 零 的 正规 方程 。 
意识 到 我 们 可 以 替换 独立 于 其 他 组 件 的 大 多 数组 件 ， 因 此 我 们 能 得 到 很 多 不 同 
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的 算法 。 

通常 代价 函数 至 少 含有 一 项 使 学 习 过 程 进行 统计 估计 的 成 分 。 最 常见 的 代价 函 
数 是 负 对 数 似 然 ， 最 小 化 代价 函数 导致 的 最 大 似 然 估计 。 

代价 函数 也 可 能 含有 附加 项 ， 如 正则 化 项 。 例 如 ， 我 们 可 以 将 权重 衰减 加 到 线 
性 回归 的 代价 函数 中 














J(w,b) = || ell) — Ex.y~Pantn 108 Pmoaer(y | 可 (5.101) 





该 优化 仍然 有 闭 解 。 

如 果 我 们 将 该 模型 变 成 非 线 性 的 ， 那么 大 多 数 代 价 函 数 不 再 能 通过 闭 解 优化 。 
这 就 要 求 我 们 选择 一 个 迭代 数值 优化 过 程 ， 如 梯度 下 降 等 

组 合 模型 、 代 价 和 优化 算法 来 构建 学 习 算法 的 配方 同时 适用 于 监督 学 习 和 无 监 
督学 习 。 线 性 回归 示例 说 明了 如 何 适 用 于 监督 学 习 的 。 无 监督 学 习 时 ， 我 们 需要 定 
义 一 个 只 包含 X 的 数据 集 、 一 个 合适 的 无 监督 代价 和 一 个 模型 。 例 如 ， 通 过 指定 如 
下 损失 函数 可 以 得 到 PCA 的 第 一 个 主 向 量 














J(w) = 了 cause [le — r(z; w) (5.102) 











模型 定义 为 重 构 函 数 7(z) = wlaw, IFA w 有 范 数 为 1 的 限制 。 

在 某 些 情况 下 ,由 于 计算 原因 , 我 们 不 能 实际 计算 代价 函数 。 在 这 种 情况 下 ， 只 
要 我 们 有 近似 其 梯度 的 方法 ， 那 么 我 们 仍然 可 以 使 用 和 迭代 数值 优化 近似 最 小 化 目标 。 

尽管 有 时 候 不 显然 , 但 大 多 数学 习 算 法 都 用 到 了 上 述 配 方 。 如 果 一 个 机 器 学 习 算 
法 看 上 去 特别 独特 或 是 手动 设计 的 ， 那么 通常 需要 使 用 特殊 的 优化 方法 进行 求解 。 
有 些 模 型 ， 如 决策 树 或 均值 ， 需 要 特殊 的 优化 ， 因 为 它们 的 代价 函数 有 平坦 的 区 
域 ， 使 其 不 适合 通过 基于 梯度 的 优化 去 最 小 化 。 在 我 们 认识 到 大 部 分 机 器 学 习 算 法 
可 以 使 用 上 述 配方 描述 之 后 ， 我 们 可 以 将 不 同 算法 视 为 出 于 相同 原因 解决 相关 问题 
的 一 类 方法 ， 而 不 是 一 长 串 各 个 不 同 的 算法 。 











5.11 促使 深度 学 习 发 展 的 挑战 


本 章 描 述 的 简单 机 器 学 习 算 法 在 很 多 不 同 的 重要 问题 上 效果 都 良好 。 但 是 它们 
不 能 成 功 解决 人 工 智能 中 的 核心 问题 ， 如 语音 识别 或 者 对 象 识别 。 
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深度 学 习 发 展 动机 的 一 部 分 原因 是 传统 学 习 算 法 在 这 类 人 工 智能 问题 上 泛 化 能 
力 不 足 。 

本 节 介 绍 为 何 处 理 高 维 数据 时 在 新 样本 上 泛 化 特别 困难 ， 以 及 为 何在 传统 机 央 
学 习 中 实现 泛 化 的 机 制 不 适合 学 习 高 维 空间 中 复杂 的 函数 。 这 些 空间 经 常 涉及 巨大 
的 计算 代价 。 深 度 学 习 旨 在 克服 这 些 以 及 其 他 一 些 难题 。 











5.11.1 ” 维 数 灾难 


当 数 据 的 维 数 很 高 时 ， 很 多 机 器 学 习 问 题 变 得 相当 困难 。 这 种 现象 被 称 为 维 数 
灾难 (curse of dimensionality )。 特 别 值得 注意 的 是 ， 一 组 变量 不 同 的 可 能 配置 数量 
会 随 着 变量 数目 的 增加 而 指数 级 增长 。 

维 数 灾 难 发 生 在 计算 机 科学 的 许多 地 方 ， 在 机 器 学 习 中 尤其 如 此 。 

由 维 数 灾难 带 来 的 一 个 挑战 是 统计 挑战 。 如 图 5.9 所 示 , 统计 挑战 产生 于 z 的 可 
能 配置 数目 远大 于 训练 样本 的 数目 。 为 了 充分 理解 这 个 问题 ， 我 们 假设 输入 空间 如 
图 所 示 被 分 成 网 格 。 低 维 时 我 们 可 以 用 由 数据 占据 的 少量 网 格 去 描述 这 个 空间 。 泛 
化 到 新 数据 点 时 ， 通 过 检测 和 新 输入 在 相同 网 格 中 的 训练 样本 ， 我 们 可 以 判断 如 何 
处 理 新 数据 点 。 例 如 ， 如 果 要 估计 某 点 z 处 的 概率 密度 ， 我 们 可 以 返回 z 处 单位 体 
积 内 训练 样本 的 数目 除 以 训练 样本 的 总 数 。 如 果 我 们 希望 对 一 个 样本 进行 分 类 ， 我 
们 可 以 返回 相同 网 格 中 训练 样本 最 多 的 类 别 。 如 果 我 们 是 做 回归 分 析 ， 我 们 可 以 平 
均 该 网 格 中 样本 对 应 的 的 目标 值 。 但 是 ， 如 果 该 网 格 中 没有 样本 ， 该 怎么 办 呢 ? 因为 

在 高 维 空间 中 参数 配置 数目 远大 于 样本 数目 ， 大 部 分 配置 没有 相关 的 样本 。 我 们 如 
何 能 在 这 些 新 配置 中 找到 一 些 有 意义 的 东西 呢 ? 许多 传统 机 器 学 习 算 法 只 是 简单 地 
假设 在 一 个 新 点 的 输出 应 大 致 和 最 接近 的 训练 点 的 输出 相同 。 

















5.11.2 ”局 部 不 变性 和 平滑 正则 化 


为 了 更 好 地 泛 化 ， 机 顺 学 习 算 法 需要 由 先 验 信念 引导 应 该 学 习 什 么 类 型 的 函数 。 
此 前 , 我 们 已 经 看 到 过 由 模型 参数 的 概率 分 布 形成 的 先 验 。 通俗 地 讲 , 我 们 也 可 以 说 
先 验 信念 直接 影响 函数 本 身 ， 而 仪 仅 通过 它们 对 函数 的 影响 来 间接 改变 参数 。 此 外 ， 
我 们 还 能 通俗 地 说 ， 先 验 信 念 还 间接 地 体现 在 选择 一 些 偏好 某 类 函数 的 算法 ， 尽 管 
这 些 仿 好 并 没有 通过 我 们 对 不 同 函 数 置 信 程 度 的 概率 分 布 表 现 出 来 (也许 根 本 没 法 
表现 )。 
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图 5.9: 当 数 据 的 相关 维度 增 大 时 (从 左 向 右 ), 我 们 感 兴趣 的 配置 数目 会 随 之 指数 级 增长 。( 左 ) 在 
这 个 一 维 的 例子 中 ， 我 们 用 一 个 变量 来 区 分 所 感 兴趣 的 仅仅 10 个 区 域 。 当 每 个 区 域 都 有 足够 的 样 
本 数 时 (图 中 每 个 样本 对 应 了 一 个 细胞 )， 学 习 算法 能 够 轻易 地 泛 化 得 很 好 。 泛 化 的 一 个 直接 方法 
是 估计 目标 函数 在 每 个 区 域 的 值 ( 可 能 是 在 相 邻 区 域 之 间 插 值 )。( 中 ) 在 二 维 情况 下 ， 对 每 个 变量 
区 分 10 个 不 同 的 值 更 加 困难 。 我 们 需要 追踪 10 x 10 = 100 个 区 域 ， 至 少 需要 很 多 样本 来 覆盖 所 
有 的 区 域 。( 右 ) 三 维 情况 下 ， 区 域 数 量 增 加 到 了 103 = 1000， 至 少 需 要 那么 多 的 样本 。 对 于 需要 
区 分 的 d 维 以 及 v MERK, RTEZ OW) 个 区 域 和 样本 。 这 就 是 维 数 灾难 的 一 个 示例 。 感 谢 
由 Nicolas Chapados 提供 的 图 片 。 


















































其 中 最 广泛 使 用 的 隐 式 “ 先 验 ” 是 平滑 先 验 (smoothness prior )， 或 局 部 不 变 
性 先 验 (local constancy prior )。 这 个 先 验 表明 我 们 学 习 的 函数 不 应 在 小 区 域内 发 生 
很 大 的 变化 。 

许多 简单 算法 完全 依赖 于 此 先 验 达 到 良好 的 泛 化 ， 其 结果 是 不 能 推广 去 解决 人 
工 智能 级 别 任务 中 的 统计 挑战 。 本 书 中 ， 我 们 将 介绍 深度 学 习 如 何 引 入 额外 的 〈 显 
式 或 隐 式 的 ) 先 验 去 降低 复杂 任务 中 的 泛 化 误差 。 这 里 ， 我 们 解释 为 什么 仪 依靠 平 
滑 先 验 不 足以 应 对 这 类 任务 。 

有 许多 不 同 的 方法 来 显 式 或 隐 式 地 表示 学 习 困 数 应 该 具有 光滑 或 局 部 不 变 的 先 
验 。 所 有 这 些 不 同 的 方法 都 间 在 鼓励 学 习 过 程 能 够 学 习 出 函数 f* 对 于 大 多 数 设置 x 
和 小 变动 e， 都 满足 条 件 








f(a) ~ f (æ+ e). (5.103) 


换言之 ， 如 果 我 们 知道 对 应 输入 z 的 答案 ( 例如 ，z 是 个 有 标签 的 训练 样本 )， 那 么 
该 答案 对 于 z 的 邻 域 应 该 也 适用 。 如 果 在 有 些 邻 域 中 我 们 有 几 个 好 答案 ， 那 么 我 们 
可 以 组 合 它 们 (通过 某 种 形式 的 平均 或 插值 法 ) 以 产生 一 个 尽 可 能 和 大 多 数 输 入 一 
致 的 答案 。 
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局 部 不 变 方法 的 一 个 极端 例子 是 -最 近邻 系列 的 学 习 算 法 。 当 一 个 区 域 里 的 所 
有 点 z 在 训练 集中 的 大 个 最 近邻 是 一 样 的 ， 那么 对 这 些 点 的 预测 也 是 一 样 的 。 当 
k= 二 1 时, 不同 区 域 的 数目 不 会 比 训练 样本 还 多 。 

虽然 最 近邻 算法 复制 了 附近 训练 样本 的 输出 ， 大 部 分 核 机 器 也 是 在 和 附近 训 
练 样本 相关 的 训练 集 输出 上 插值 。 一 类 重要 的 核 函 数 是 局 部 核 (local kernel )， 其 核 
PAA klu, v) Æ u= wv 时 很 大 ， 当 u 和 w 距离 拉 大 时 而 减 小 。 局 部 核 可 以 看 作 是 执 
行 模版 匹配 的 相似 函数 ， 用 于 度量 测试 样本 z 和 每 个 训练 样本 O 有 和 多么 相似 。 近 
年 来 深度 学 习 的 很 多 推动 力 源 自 研究 局 部 模版 匹配 的 局 限 性 ， 以 及 深度 学 习 如 何 克 
服 这 些 局 限 性 (Bengio et al., 2006a)。 

决策 树 也 有 平滑 学 习 的 局 限 性 ， 因 为 它 将 输入 空间 分 成 和 叶 节 点 一 样 多 的 区 间 ， 
并 在 每 个 区 间 使 用 单独 的 参数 (或 者 有 些 决 策 树 的 拓展 有 多 个 参数 )。 如 果 目 标 函 数 
需要 至 少 拥 有 n 个 叶 节 点 的 树 才能 精确 表示 ， 那 么 至 少 需要 n 个 训练 样本 去 拟 合 。 
需要 几 倍 于 n 的 样本 去 达到 预测 输出 上 的 某 种 统计 置信 和 度 。 

总 的 来 说 ， 区 分 输入 空间 中 O(k) 个 区 间 ， 所 有 的 这 些 方法 需要 O(k) 个 样本 。 
通常 会 有 O(k) 个 参数 ，O(1) 参数 对 应 于 O(k) 区 间 之 一 。 最 近邻 算法 中 ， 每 个 训 
练 样本 至 多 用 于 定义 一 个 区 间 ， 如 图 5.10 所 示 。 


O 














图 5.10: 最 近邻 算法 如 何 划分 输入 空间 的 示例 。 每 个 区 域内 的 一 个 样本 〈 这 里 用 圆圈 表示 ) 定义 了 
区 域 边界 〈 这 里 用 线 表示 )。 每 个 样本 相关 的 y 值 定 义 了 对 应 区 域内 所 有 数据 点 的 输出 。 由 最 近 
邻 定义 并 且 匹 配 几 何 模式 的 区 域 被 称 为 Voronoi 图 。 这 些 连 续 区 域 的 数量 不 会 比 训练 样本 的 数量 
曾 加 得 更 快 。 尽 管 此 图 具体 说 明了 最 近邻 算法 的 效果， 其 他 的 单纯 依赖 局 部 光滑 先 验 的 机 器 学 习 
算法 也 表现 出 了 类 似 的 泛 化 能 力 : 每 个 训练 样本 仅仅 能 告诉 学 习 者 如 何在 其 周围 的 相 邻 区 域 泛 化 。 


















































有 没有 什么 方法 能 表示 区 间 数 目 比 训练 样本 数目 还 多 的 复杂 函数 ?显然 ， 只 是 
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假设 函数 的 平滑 性 不 能 做 到 这 点 。 例如， 想象 目标 函数 作用 在 西洋 跳棋 盘 上 。 棋盘 包 
含 许多 变化 ,但 只 有 一 个 简单 的 结构 。 想 象 一 下 ， 如 果 训 练 样本 数目 远 小 于 棋盘 上 
的 黑白 方块 数目 ， 那 么 会 发 生 什么 。 基 于 局 部 泛 化 和 平滑 性 或 局 部 不 变性 先 验 ， 如 
果 新 点 和 某 个 训练 样本 位 于 相同 的 棋盘 方块 中 ， 那 么 我 们 能 够 保证 正确 地 预测 新 点 
的 颜色 。 但 如 果 新 点 所 在 的 方块 没有 训练 样本 ， 学 习 器 不 一 定 能 举一反三 。 如 果 仅 
依靠 这 个 先 验 ， 一 个 样本 只 能 告诉 我 们 它 所 在 的 方块 的 颜色 。 获 得 整个 棋盘 颜色 的 
唯一 方法 是 其 上 的 每 个 方块 至 少 要 有 一 个 样本 。 

只 要 在 要 学 习 的 真实 函数 的 峰值 和 谷 值 处 有 足够 多 的 样本 ， 那 么 平滑 性 假设 和 
相关 的 无 参数 学 习 算 法 的 效果 都 非常 好 。 当 要 学 习 的 函数 足够 平滑 ， 并 且 只 在 少数 
几 维 变化 ， 这 样 做 一 般 没 问题 。 在 高 维 空间 中 ， 即 使 是 非常 平滑 的 函数 ， 也 会 在 不 
同 维度 上 有 不 同 的 变化 方式 。 如 果 函 数 在 不 同 的 区 间 中 表现 不 一 样 ， 那 么 就 非常 难 
用 一 组 训练 样本 去 刻画 函数 。 如 果 函 数 是 复杂 的 (我 们 想 区 分 多 于 训练 样本 数目 的 
大 量 区 间 )， 有 希望 很 好 地 泛 化 么 ? 

这 些 问 题 ， 即 是 否 可 以 有 效 地 表示 复杂 的 函数 以 及 所 估计 的 函数 是 否 可 以 很 好 
地 泛 化 到 新 的 输入 ， 答案 是 有 。 关 键 观点 是 ， 只 要 我 们 通过 和 额外 假设 生成 数据 的 分 
布 来 建立 区 域 间 的 依赖 关系 ,那么 O(k) 个 样本 足以 描述 多 如 0O(2*) 的 大 量 区 间 。 通 
过 这 种 方式 ， 我 们 确实 能 做 到 非 局 部 的 泛 化 (Bengio and Monperrus, 2005; Bengio 
et al., 2006b)。 为 了 利用 这 些 优势 ， 许 多 不 同 的 深度 学 习 算 法 都 提出 了 一 些 适用 于 多 
种 AI 任 务 的 隐 式 或 显 式 的 假设 。 

一 些 其 他 的 机 器 学 习 方 法 往往 会 提出 更 强 的 ， 针 对 特定 问题 的 假设 。 例 如 ， 假 
设 目 标 函 数 是 周期 性 的 , 我 们 很 容易 解决 棋盘 问题 。 通常 ,神经 网 络 不 会 包含 这 些 很 
强 的 (针对 特定 任务 的 ) 假设 ， 因 此 神经 网 络 可 以 泛 化 到 更 广泛 的 各 种 结构 中 。 人 
工 智能 任务 的 结构 非常 复杂 ， 很 难 限 制 到 简单 的 、 人 工 手动 指定 的 性 质 ， 如 周期 性 ， 
因此 我 们 希望 学 习 算 法 具有 更 通用 的 假设 。 深 度 学 习 的 核心 思想 是 假设 数据 由 因素 
或 特征 组 合 产 生 ， 这 些 因素 或 特征 可 能 来 自 一 个 层次 结构 的 多 个 层级 。 许 多 其 他 类 
似 的 通用 假设 进一步 提高 了 深度 学 习 算 法 。 这 些 很 温和 的 假设 允许 了 样本 数目 和 可 
区 分 区 间 数 目 之 间 的 指数 增益 。 这 类 指数 增益 将 在 第 6.4.1 节 、 第 15.4 节 和 第 15.5 节 
中 更 详尽 地 介绍 。 深 度 的 分 布 式 表示 带 来 的 指数 增益 有 效 地 解决 了 维 数 灾难 带 来 的 
HR 
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5.11.3 HEFJI 


流 形 是 一 个 机 器 学 习 中 很 多 想法 内 在 的 重要 概念 。 

流 形 (manifold) 指 连 接 在 一 起 的 区 域 。 数 学 上 ， 它 是 指 一 组 点 ， 且 每 个 点 都 
有 其 邻 域 。 给 定 一 个 任意 的 点 ， 其 流 形 局 部 看 起 来 像 是 欧 几 里 得 空间 日 常生 活 中 ， 
我 们 将 地 球 视 为 二 维 平面 ， 但 实际 上 它 是 三 维 空间 中 的 球状 流 形 。 

每 个 点 周围 邻 域 的 定义 暗示 着 存在 变换 能 够 从 一 个 位 置 移动 到 其 邻 域 位 置 。 例 
如 在 地 球 表 面 这 个 流 形 中， 我 们 可 以 朝 东南 西北 走 。 

尽管 术语 “ 流 形 ” 有 正式 的 数学 定义 ， 但 是 机 器 学 习 倾向 于 更 松散 地 定义 一 组 
点 ， 只 需要 考虑 少数 嵌入 在 高 维 空间 中 的 自由 度 或 维 数 就 能 很 好 地 近似 。 每 一 维 都 
对 应 着 局 部 的 变化 方向 。 如 图 5.11 所 示 ， 训 练 数据 位 于 二 维 空间 中 的 一 维 流 形 中 。 
在 机 器 学 习 中 ， 我 们 允许 流 形 的 维 数 从 一 个 点 到 另 二 个 点 有 所 变化 。 这 经 常 发 生 于 
流 形 和 自身 相交 的 情况 中 。 例 如 ， 数 字 “8” 形 状 的 流 形 在 大 多 数位 置 只 有 一 维 ， 但 
在 中 心 的 相交 处 有 两 维 。 














图 5.11: 从 一 个 二 维 空间 的 分 布 中 抽取 的 数据 样本 ,这 些 样本 实际 上 聚集 在 一 维 流 形 附 近 , 像 一 个 
缠绕 的 带子 。 实 线 代 表 学 习 器 应 该 推断 的 隐 式 流 形 。 


如 果 我 们 和 希望 机 器 学 习 算 法 学 习 整 个 及 ”上 有 趣 变化 的 函数 ， 那 么 很 多 机 器 学 
习 问 题 看 上 去 都 是 无 望 的 。 流 形 学 习 ( manifold learning ) 算法 通过 一 个 假设 来 克服 
这 个 障碍 ,该 假设 认为 及 ”中 大 部 分 区 域 都 是 无 效 的 输入 , 有 意义 的 输入 只 分 布 在 包 
含 少量 数据 点 的 子 集 构成 的 一 组 流 形 中 ， 而 学 习 函 数 的 输出 中 ， 有 意义 的 变化 都 沿 
着 流 形 的 方向 或 仅 发 生 在 我 们 切换 到 另 一 流 形 时 。 流 形 学 习 最 初 用 于 连续 数值 和 无 
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监督 学 习 的 环境 ， 尽 管 这 个 概率 集中 的 想法 也 能 够 泛 化 到 离散 数据 和 监督 学 习 的 设 
ET: 关键 假设 仍然 是 概率 质量 高 度 集中 。 





图 5.12: 随机 地 均匀 抽取 图 像 (根据 均匀 分 布 随 机 地 选择 每 一 个 像素 ) 会 得 到 噪声 图 像 。 尽 管 在 人 

能 应 用 中 以 这 种 | 图 像 是 非 零 概率 的 ， 但 是 实际 上 我 们 从 来 没 
有 观察 到 这 种 现象 。 意味 着 人 工 智能 应 用 中 遇 到 的 图 像 在 所 有 图 像 空间 中 的 占 比 可 以 是 忽略 
不 计 的 。 





数据 位 于 低 维 流 形 的 假设 并 不 总 是 对 的 或 者 有 用 的 。 我 们 认为 在 人 工 智 能 的 一 
些 场景 中 ， 如 涉及 到 处 理 图 像 、 声 音 或 者 文本 时 ， 流 形 假 设 至 少 是 近似 对 的 。 这 个 
假设 的 支持 证 据 包 含 两 类 观察 结果 。 

第 一 个 支持 流 形 假设 (manifold hypothesis ) 的 观察 是 现实 生活 中 的 图 像 、 文 
本 、 声 音 的 概率 分 布 都 是 高 度 集中 的 。 均 匀 的 噪声 从 来 不 会 与 这 类 领域 的 结构 化 输 
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和 人 类似。 图 5.12 显示 均匀 采样 的 点 看 上 去 像 是 没有 信和 号 时 模拟 电视 上 的 静态 模式 。 
同样 ， 如 果 我 们 均匀 地 随机 抽取 字母 来 生成 文件 ， 能 有 多 大 的 概率 得 到 一 个 有 意义 
的 英语 文档 ”几乎 是 零 。 因 为 大 部 分 字母 长 序列 不 对 应 着 自然 语言 序列 : 自然 语言 
序列 的 分 布 只 占 了 字母 序列 的 总 空间 里 非常 小 的 一 部 分 。 

当然 ， 集 中 的 概率 分 布 不 足以 说 明 数 据 位 于 一 个 相当 小 的 流 形 中 。 我 们 还 必须 
确保 ,我 们 遇 到 的 样本 和 其 他 样本 相互 连接 ， 每 个 样本 被 其 他 高 度 相 似 的 样本 包围 ， 
而 这 些 高 度 相似 的 样本 可 以 通过 变换 来 遍历 该 流 形 得 到 。 文 持 流 形 假设 的 第 二 个 论 
点 是 ， 我 们 至 少 能 够 非 正式 地 想象 这 些 邻 域 和 变换 。 在 图 像 中 ， 我 们 当然 会 认为 有 
很 多 可 能 的 变换 仍然 允许 我 们 描绘 出 图 片 空间 的 流 形 : 我 们 可 以 逐渐 变 暗 或 变 亮 》 
泽 、 逐 步 移动 或 旋转 图 中 对 象 、 逐 渐 改 变 对 象 表面 的 颜色 等 等 。 在 大 多 数 应 用 中 很 
有 可 能 会 涉及 到 多 个 流 形 。 例 如 ， 人 脸 图 像 的 流 形 不 太 可 能 连接 到 猫 脸 图 像 的 流 形 。 

这 些 文 持 流 形 假设 的 思维 实验 传递 了 一 些 文 持 它 的 直观 理由 。 更 严格 的 实 
验 (Cayton, 2005; Narayanan and Mitter, 2010; Schdlkopf et al., 1998a; Roweis and 
Saul, 2000; Tenenbaum et al., 2000; Brand, 2003a; Belkin and Niyogi, 2003b; Donoho 
and Grimes, 2003; Weinberger and Saul, 2004a) 在 人 工 智 能 中 备 受 关注 的 一 大 类 数 
据 集 上 支持 了 这 个 假设 。 

当 数 据 位 于 低 维 流 形 中 时 , 使 用 流 形 中 的 坐标 而 非 R” 中 的 坐标 表示 机 带 学 习 数 
据 更 为 自然 。 日 常生 活 中 ， 我 们 可 以 认为 道路 是 般 入 在 三 维 空间 的 一 维 流 形 。 我 们 
用 一 维 道路 中 的 地 址 号 码 确定 地 址 ， 而 非 三 维 空间 中 的 坐标 。 提 取 这 些 流 形 中 的 坐 
标 是 非常 具有 挑战 性 的 ， 但 是 很 有 和 希望 改进 许多 机 器 学 习 算 法 。 这 个 一 般 性 原则 能 
够 用 在 很 多 情况 中 。 图 5.13 展示 了 包含 人 脸 的 数据 集 的 流 形 结构 。 在 本 书 的 最 后 ， 
我 们 会 介绍 一 些 学习 这 样 的 流 形 结构 的 必 备 方法 。 在 图 20.6 中 ， 我 们 将 看 到 机 器 学 
习 算 法 如 何 成 功 完成 这 个 目标 。 

第 一 部 分 介绍 了 数学 和 机 带 学 习 中 的 基本 概念 ， 这 将 用 于 本 书 其 他 章节 中 。 至 
此 ， 我 们 已 经 做 好 了 研究 深度 学 习 的 准备 。 
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图 5.13: QMUL Multiview Face 数据 集中 的 训练 样本 (Gong et al., 2000)， 其 中 的 物体 是 移动 
的 从 而 覆盖 对 应 两 个 旋转 角度 的 二 维 流 形 。 我 们 希望 学 习 算 法 能 够 发 现 并 且 理 出 这 些 流 形 坐 标 。 
图 20.6 提 供 了 这 样 一 个 示例 。 
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本 书 这 一 部 分 总 结 现代 深度 学 习 用 于 解决 实际 应 用 的 现状 。 

深度 学 习 有 着 悠久 的 历史 和 许多 愿景 。 数 种 提出 的 方法 尚未 完全 结 出 果实 。 数 
个 雄心 勃勃 的 目标 尚未 实现 。 这 些 较 不 发 达 的 深度 学 习 分 支 将 出 现在 本 书 的 最 后 部 
分 。 

这 一 部 分 仅 关注 那些 基本 上 已 在 工业 中 大 量 使 用 的 技术 方法 。 

现代 深度 学 习 为 监督 学 习 提供 了 一 个 强大 的 框架 。 通 过 添加 更 多 层 以 及 向 层 内 
添加 更 多 单元 ， 深 度 网 络 可 以 表示 复杂 性 不 断 增 加 的 函数 。 给 定 足够 大 的 模型 和 足 
够 大 的 标注 训练 数据 集 ， 我 们 可 以 通过 深度 学 习 将 输入 向 量 映射 到 输出 向 量 ， 完 成 
大 多 数 对 人 来 说 能 迅速 处 理 的 任务 。 其 他 任务 ， 比 如 不 能 被 描述 为 将 一 个 向 量 与 男 
一 个 相关 联 的 任务 ， 或 者 对 于 一 个 人 来 说 足够 困难 并 需要 时 间 思 考 和 反复 琢磨 才能 
完成 的 任务 ， 现 在 仍然 超出 了 深度 学 习 的 能 力 范围 。 

本 书 这 一 部 分 描述 参数 化 函数 近似 技术 的 核心 ， 几 乎 所 有 现代 实际 应 用 的 深度 
学 习 背 后 都 用 到 了 这 一 技术 。 首 先 ， 我 们 描述 用 于 表示 这 些 函 数 的 前 馈 深度 网 络 模 
型 。 接 着 ， 我 们 提出 正则 化 和 优化 这 种 模型 的 高 级 技术 。 将 这 些 模型 扩展 到 大 输入 
( 如 高 分 辨 率 图 像 或 长 时 间 序 列 ) 需要 专门 化 。 我 们 将 会 介绍 扩展 到 大 图 像 的 卷 积 区 
络 和 用 于 处 理 时 间 序 列 的 循环 神经 网 络 。 最 后 ， 我 们 提出 实用 方法 的 一 般 准 则 ， 有 
助 于 设计 、 构 建 和 配置 一 些 涉及 深度 学 习 的 应 用 ， 并 回顾 其 中 一 些 应 用 。 

这 些 章节 对 于 从 业者 来 说 是 最 重要 的 ， 也 就 是 现在 想 开始 实现 和 使 用 深度 学 
习 算法 解决 现实 问题 的 人 需要 阅读 这 些 章节 。 
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深度 前 馈 网 络 ( deep feedforward network ), 也 叫 作 前 馈 神经 网 络 (feedforward 
neural network ) 或 者 多 层 感 知 机 ( multilayer perceptron, MLP )， 是 典型 的 深度 学 
习 模 型 。 前 馈 网 络 的 目标 是 近似 某 个 函数 产 。 例 如 ， 对 于 分 类 器 , y = f*(z) 将 输入 
x 映射 到 一 个 类 别 y。 前 馈 网 络 定义 了 一 个 映射 y= f(x; 9)， 并 且 学 习 参 数 9 的 值 ， 
使 它 能 够 得 到 最 佳 的 函数 近似 。 

这 种 模型 被 称 为 前 向 ( feedforward ) 的 ， 是 因为 信息 流 过 z 的 函数 ， 流 经 用 于 
定义 了 的 中 间 计 算 过 程 ， 最 终 到 达 输 出 y。 在 模型 的 输出 和 模型 本 身 之 间 没 有 反馈 
(feedback ) 连接 。 当 前 馈 神经 网 络 被 扩展 成 包含 反馈 连接 时 ， 它 们 被 称 为 循环 神经 
网 络 (recurrent neural network )， 在 第 十 章 介 绍 。 


前 馈 网 络 对 于 机 器 学 习 的 从 业者 是 极其 重要 的 。 它 们 是 许多 重要 商业 应 用 的 基 
础 。 例 如 ， 用 于 对 照片 中 的 对 象 进行 识别 的 卷 积 神经 网 络 就 是 一 种 专门 的 前 馈 网 络 。 
前 馈 网 络 是 通 往 循环 网 络 之 路 的 概念 基石 ， 后 者 在 自然 语言 的 许多 应 用 中 发 挥 着 巨 
大 作用 。 

前 馈 神 经 网 络 被 称 作 网 络 (network) 是 因为 它们 通常 用 许多 不 同 函 数 复合 
在 一 起 来 表示 。 该 模型 与 一 个 有 向 无 环 图 相关 联 ， 而 图 描述 了 了 涵 数 是 如 何 复 
合 在 一 起 的 。 例如， 我 们 有 三 个 函数 (OY, fO 和 FO 连接 在 一 个 链 上 以 形成 
f(z) = 3(f9(fD(z)))。 这 些 链 式 结构 是 神经 网 络 中 最 常用 的 结构 。 在 这 种 情况 
下 ，f 中 被 称 为 网 络 的 第 一 层 (first layer), f°) 被 称 为 第 二 层 (second layer )， 以 
此 类 推 。 链 的 全 长 称 为 模型 的 深度 ( depth )。 正 是 因为 这 个 术语 才 出 现 了 “深度 学 
习 ” 这 个 名 字 。 前 馈 网 络 的 最 后 一 层 被 称 为 输出 层 (output layer )。 在 神经 网 络 训练 
的 过 程 中 ,我 们 让 f(x) 去 匹配 产 (z) 的 值 。 训 练 数据 为 我 们 提供 了 在 不 同 训 练 点 上 
取 值 的 、 含 有 噪声 的 f(a) 的 近似 实例 。 每 个 样本 z 都 伴随 着 一 个 标签 y & f*(z)。 
训练 样本 直接 指明 了 输出 层 在 每 一 点 zx 上 必须 做 什么 ; 它 必 须 产 生 一 个 接近 y 的 值 。 
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但 是 训练 数据 并 没有 直接 指明 其 他 层 应 该 怎么 做 。 学 习 算法 必须 决定 如 何 使 用 这 些 
层 来 产生 想 要 的 输出 ， 但 是 训练 数据 并 没有 说 每 个 单独 的 层 应 该 做 什么 。 相 反 ， 学 
习 算 法 必须 决定 如 何 使 用 这 些 层 来 最 好 地 实现 f 的 近似 。 因 为 训练 数据 并 没有 给 出 
这 些 层 中 的 每 一 层 所 需 的 输出 ， 所 以 这 些 层 被 称 为 隐藏 层 (hidden layer )。 

最 后 ， 这 些 网 络 被 称 为 神经 网 络 是 因为 它们 或 多 或 少 地 受到 神经 科学 的 启 
发 。 网 络 中 的 每 个 隐藏 层 通常 都 是 向 量 值 的 。 这 些 隐 藏 层 的 维 数 决定 了 模型 的 宽度 
(width )。 向 量 的 每 个 元 素 都 可 以 被 视 为 起 到 类 似 一 个 神经 元 的 作用 。 除 了 将 层 想 
象 成 向 量 到 向 量 的 单个 函数 ， 我 们 也 可 以 把 层 想象 成 由 许多 并 行 操作 的 单元 (unit ) 
组 成 ， 每 个 单元 表示 一 个 向 量 到 标量 的 函数 。 每 个 单元 在 某 种 意义 上 类 似 一 个 神经 
元 , 它 接收 的 输入 来 源 于 许多 其 他 的 单元 , 并 计算 它 自 己 的 激活 值 。 使 用 多 层 向 量 值 
表示 的 想法 来 源 于 神经 科学 。 用 于 计算 这 些 表示 的 函数 fO (ax) 的 选择 ， 也 或 多 或 少 
地 受到 神经 科学 观测 的 指引 ， 这 些 观测 是 关于 生物 神经 元 计算 功能 的 。 然 而 ， 现 代 
的 神经 网 络 研究 受到 更 多 的 是 来 自 许多 数学 和 工程 学 科 的 指引 ， 并 且 神经 网 络 的 目 
标 并 不 是 完美 地 给 大 脑 建 模 。 我 们 最 好 将 前 僻 神经 网 络 想 成 是 为 了 实现 统计 泛 化 而 
设计 出 的 函数 近似 机 ， 它 偶尔 从 我 们 了 解 的 大 脑 中 提取 灵感 ， 但 并 不 是 大 脑 功能 的 
模型 。 

一 种 理解 前 馈 网 络 的 方式 是 从 线性 模型 开始 ， 并 考虑 如 何 克 服 它 的 局 限 性 。 线 
性 异型， 例如 逻辑 回归 和 线性 回归 ， 是 非常 吸引 人 的 ， 因 为 无 论 是 通过 闭 解 形式 还 
是 使 用 凸 优化 ， 它 们 都 能 高 效 昌 可 靠 地 拟 合 。 线性 模型 也 有 明显 的 缺陷 ， 那 就 是 该 
模型 的 能 力 被 局 限 在 线性 函数 里 ， 所 以 它 无 法 理解 任何 两 个 输入 变量 间 的 相互 作用 。 

为 了 扩展 线性 模型 来 表示 z 的 非 线性 函数 ,我 们 可 以 不 把 线性 模型 用 于 = 本 身 ， 
而 是 用 在 一 个 变换 后 的 输入 %(z) 上 ， 这 里 6 是 一 个 非 线性 变换 。 同 样 ， 我 们 可 以 
使 用 第 5.7.2 节 中 描述 的 核 技巧 ， 来 得 到 一 个 基于 隐 含 地 使 用 映射 的 非 线性 学 习 算 
法 。 我们 可 以 认为 $ 提供 了 一 组 描述 x 的 特征 ， 或 者 认为 它 提供 了 z 的 一 个 新 的 表 
Zo 


















































剩 下 的 问题 就 是 如 何 选择 映射 %。 


1. 其 中 一 种 选择 是 使 用 一 个 通用 的 %， 例 如 无 限 维 的 %， 它 隐 含 地 用 在 基 
于 RBF 核 的 核 机 器 上 。 如 果 %(z) 具有 足够 高 的 维 数 ， 我 们 总 是 有 足够 的 能 
来 拟 合 训练 集 ， 但 是 对 于 测试 集 的 泛 化 往往 不 佳 。 非 常 通用 的 特征 映射 通常 只 
基于 局 部 光滑 的 原则 ， 并 且 没 有 将 足够 的 先 验 信息 进行 编码 来 解决 高 级 问题 。 

2. 另 一 种 选择 是 手动 地 设计 %。 在 深度 学 习 出 现 以 前 ， 这 一 直 是 主流 的 方法 。 这 
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种 方法 对 于 每 个 单独 的 任务 都 需要 人 们 数 十 年 的 努力 ， 从 业者 各 自 擅 长 特定 的 
领域 ( 如 语音 识别 或 计算 机 视觉 )， 并 且 不 同 领域 之 间 很 难 迁 移 (transfer)。 


CD 


. 深度 学 习 的 策略 是 去 学 习 $B。 在 这 种 方法 中 ,我 们 有 一 个 模型 y = f(x; 0, w) = 
olz 0) wo 我 们 现在 有 两 种 参数 : 用 于 从 一 大 类 函数 中 学 习 少 的 参数 6， 以 及 
用 于 将 olx) 映射 到 所 需 的 输出 的 参数 w。 这 是 深度 前 馈 网 络 的 一 个 例子 ， 其 
中 $$ 定义 了 一 个 隐藏 层 。 这 是 三 种 方法 中 唯一 一 种 放弃 训练 问题 的 凸 性 的 方 
法 , 但 是 利 大 于 次 。 在 这 种 方法 中 ， 我 们 将 表示 参数 化 为 8(z; 0)， 并 且 使 用 优 
化 算法 来 寻找 9， 使 它 能 够 得 到 一 个 好 的 表示 。 如 果 我 们 想 要 的 话 ， 这 种 方法 
也 可 以 通过 使 它 变 得 高 度 通用 以 获得 第 一 种 方法 的 优点 一 一 我 们 只 需 使 用 一 个 
非常 广泛 的 函数 族 %(z 8)。 这 种 方法 也 可 以 获得 第 二 种 方法 的 优点 。 人 类 专家 
可 以 将 他 们 的 知识 编码 进 网 络 来 帮助 泛 化 ， 他 们 只 需要 设计 那些 他 们 期 望 能 够 
表现 优异 的 函数 族 %(z 6) 即 可 。 这 种 方法 的 优点 是 人 类 设计 者 只 需要 寻找 正 
确 的 函数 族 即 可 ， 而 不 需要 去 寻找 精确 的 函数 。 

















这 种 通过 学 习 特 征 来 改善 模型 的 一 般 化 原则 不 仅仅 适用 于 本 章 描 述 的 前 馈 神经 
网 络 。 它 是 深度 学 习 中 反复 出 现 的 主题 ,适用 于 全 书 描述 的 所 有 种 类 的 模型 。 前 馈 
神经 网 络 是 这 个 原则 的 应 用 ， 它 学 习 从 z 到 y 的 确定 性 映射 并 且 没 有 反馈 连接 。 后 
面 出 现 的 其 他 模型 会 把 这 些 原则 应 用 到 学 习 随 机 映射 、 学 习 带 有 反馈 的 函数 以 及 学 
习 单 个 向 量 的 概率 分 布 。 

本 章 我 们 先 从 前 馈 网 络 的 一 个 简单 例子 说 起 。 接 着 ,我 们 讨论 部 署 一 个 前 馈 网 
络 所 需 的 每 个 设计 决策 。 首先 , 训练 一 个 前 馈 网 络 至 少 需要 做 和 线性 模型 同样 多 的 设 
IRER: 选择 一 个 优化 模型 、 代 价 也 数 以 及 输出 单元 的 形式 。 我 们 先 回 顾 这 些 基 于 梯 
度 学 习 的 基本 知识 , 然后 去 面 对 那 些 只 出 现在 前 馈 网 络 中 的 设计 决策 。 前 馈 网 络 已 经 
引入 了 隐藏 层 的 概念 ， 这 需要 我 们 去 选择 用 于 计算 隐藏 层 值 的 激活 函数 ( activation 
function )。 我 们 还 必须 设计 网 络 的 结构 ， 包 括 网 络 应 该 包含 多 少 层 、 这 些 层 应 该 如 
何 连接 ， 以 及 每 一 层 包 含 多 少 单元 。 在 深度 神经 网 络 的 学 习 中 需要 计算 复杂 陶 数 的 
梯度 。 我 们 给 出 反 向 传播 ( back propagation ) 算法 和 它 的 现代 推广 ， 它 们 可 以 用 来 
高 效 地 计算 这 些 梯度 。 最 后 ,我 们 以 某 些 历史 观点 来 结束 这 一 童 。 
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6.1 实例 : 学习 XOR 


为 了 使 前 馈 网 络 的 想法 更 加 具体， 我 们 首先 从 一 个 可 以 完整 工作 的 前 馈 网 络 说 
起 。 这 个 例子 解决 一 个 非常 简单 的 任务 : 学 习 XOR 函数 。 

XOR 函数 (“ 异 或 ”逻辑 ) 是 两 个 二 进 制 值 zy 和 zs 的 运算 。 当 这 些 二 进 制 值 
中 恰好 有 一 个 为 1 时 ，XOR 函数 返回 值 为 1。 其 余 情 况 下 返回 值 为 0。XOR KAE 
供 了 我 们 想 要 学 习 的 目标 函数 y = f(z)。 我 们 的 模型 给 出 了 一 个 函数 y = f(a; 0) 
并 且 我 们 的 学 习 算 法 会 不 断 调 整 参数 9 来 使 得 f 尽 可 能 接近 f*。 

在 这 个 简单 的 例子 中 ， 我 们 不 会 关心 统计 泛 化 。 我 们 希望 网 络 在 这 四 个 点 
X = {[0,0]" , [0, 1]", [1,0], [1,1] 上 表现 正确 。 我 们 会 用 全 部 这 四 个 点 来 训练 我 们 
的 网 络 ， 唯 一 的 挑战 是 拟 合 训练 集 。 

我 们 可 以 把 这 个 问题 当 作 是 回归 问题 ， 并 使 用 均 方 误差 损失 函数 。 我 们 选择 这 
个 损失 函数 是 为 了 尽 可 能 简化 本 例 中 用 到 的 数学 。 在 应 用 领域 ， 对 于 二 进 制 数 据 建 
模 时 ，MSE 通 常 并 不 是 一 个 合适 的 损失 函数 。 更 加 合适 的 方法 将 在 第 6.2.2.2 节 中 讨 


论 。 


























评估 整个 训练 集 上 表现 的 MSE 损失 函数 为 
1 
7(0) = 7 DF @) — f(a)’. (6.1) 
ZEX 
我 们 现在 必须 要 选择 我 们 模型 f(a: 0) 的 形式 。 假 设 我 们 选择 一 个 线性 模型 ，0 
包含 w 和 5， 那么 我 们 的 模型 被 定义 成 


f(a; w,b) = a2' w+b. (6.2) 


我 们 可 以 使 用 正规 方程 关于 w b 最 小 化 J(0)， 来 得 到 一 个 闭 式 解 。 

解 正规 方程 以 后 , 我 们 得 到 w = 0 WR b= 。 线性 模型 仅仅 是 在 任意 一 点 都 输 
出 0.5。 为 什么 会 发 生 这 种 事 ? 图 6.1 演 示 了 线性 模型 为 什么 不 能 用 来 表示 XOR K 
数 。 解 决 这 个 问题 的 其 中 一 种 方法 是 使 用 一 个 模型 来 学 习 一 个 不 同 的 特征 空间 ， 在 
这 个 空间 上 线性 模型 能 够 表示 这 个 解 。 

具体 来 说 , 我 们 这 里 引入 一 个 非常 简单 的 前 馈 神 经 网 络 , 它 有 一 层 隐 藏 层 并 且 隐 
藏 层 中 包含 两 个 单元 。 见 图 6.2 中 对 该 模型 的 解释 。 这 个 前 馈 网 络 有 一 个 通过 函数 
f (a; W, c) 计算 得 到 的 隐藏 单元 的 向 量 ho 这 些 隐 藏 单元 的 值 随后 被 用 作 第 二 层 的 
输入 。 第 二 层 就 是 这 个 网 络 的 输出 层 。 输 出 层 仍然 只 是 一 个 线性 回归 模型 ， 只 不 过 
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Original a space Learned h space 
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图 6.1: 通过 学 习 一 个 表示 来 解决 KOR 问题 。 图 上 的 粗 体 数字 标明 了 学 得 的 函数 必须 在 每 个 点 输 
出 的 值 。( 左 ) 直接 应 用 于 原始 输入 的 线性 模型 不 能 实现 KOR 函数 。 当 zi = 0 时 ,模型 的 输出 必 
须 随 着 z 的 增 大 而 增 大 。 当 zi = 1 时 , 模型 的 输出 必须 随 着 zz 的 增 大 而 减 小 。 线 性 模型 必须 对 
z2 使 用 固定 的 系数 w2。 因 此 ， 线 性 模型 不 能 使 用 zi 的 值 来 改变 z 的 系数 ， 从 而 不 能 解决 这 个 
问题 。( 右 ) 在 由 神经 网 络 提取 的 特征 表示 的 变换 空间 中 ， 线 性 模型 现在 可 以 解决 这 个 问题 了 。 在 
我 们 的 示例 解决 方案 中 ， 输 出 必须 为 1 的 两 个 点 折 鳃 到 了 特征 空间 中 的 单个 点 。 换 句 话说 ， 非 线 
性 特征 将 z= [1,0]” 和 z= [0,1]” 都 映射 到 了 特征 空间 中 的 单个 点 h= [1,0]'。 线 性 模型 现在 可 
以 将 函数 描述 为 hi 增 大 和 ho 减 小 。 在 该 示例 中 ,学 习 特 征 空 间 的 动机 仅仅 是 使 得 模型 的 能 力 更 
大 ,使 得 它 可 以 拟 合 训练 集 。 在 更 现实 的 应 用 中 ， 学 习 的 表示 也 可 以 帮助 模型 泛 化 。 








































































































现在 它 作用 于 h 而 不 是 z。 网 络 现 在 包含 链接 在 一 起 的 两 个 函数 : h= f(a; W, c) 
Al y = f(b; 2w,5)， 完 整 的 模型 是 f(x; W, c, w,b) = f(f(a)). 

f 应 该 是 哪 种 函数 ? 线性 模型 到 目前 为 止 都 表现 不 错 ， 让 SO 也 是 线性 的 似 
乎 很 有 诱惑 力 。 不 幸 的 是 ， 如 果 O 是 线性 的 ， 那 么 前 馈 网 络 作为 一 个 整体 对 于 输 
入 仍然 是 线性 的 。 暂 时 忽略 截 距 项 , 假设 fO (2) = W zz 并 且 fO(h) = hw, 那么 
f(z) =w W' xz。 我 们 可 以 将 这 个 函数 重新 表示 成 f(x) =x w 其 中 w = Ww. 

显然 , 我 们 必须 用 非 线 性 函数 来 描述 这 些 特征 。 大 多 数 神 经 网 络 通过 仿 射 变换 之 
后 紧 跟着 一 个 被 称 为 激活 函数 的 固定 非 线性 函数 来 实现 这 个 目标 ， 其 中 仿 射 变换 由 
学 得 的 参数 控制 。 我 们 这 里 使 用 这 种 策略 ， 定 义 h = g(W' ete), 其 中 W 是 线性 
变换 的 权重 矩阵 ，e 是 偏 置 。 此 前 ,为 了 描述 线性 回归 模型 ， 我们 使 用 权重 向 量 和 一 
个 标量 的 偏 置 参数 来 描述 从 输入 向 量 到 输出 标量 的 仿 射 变换 。 现 在 ， 因 为 我 们 描述 
的 是 向 量 z 到 向 量 h 的 仿 射 变换 ， 所 以 我 们 需要 一 整个 向 量 的 偏 置 参数 。 激 活 函数 
g 通常 选择 对 每 个 元 素 分 别 起 作用 的 函数 ， 有 hi = g(a! Wi 十 ci)。 在 现代 神经 网 络 
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图 6.2: 使 用 两 种 不 同样 式 绘制 的 前 馈 网 络 的 示例 。 具 体 来 说 ， 这 是 我 们 用 来 解决 KOR 问题 的 前 
馈 网 络 。 它 有 单个 隐藏 层 ,包含 两 个 单元 。( 左 ) 在 这 种 样式 中 , 我 们 将 每 个 单元 绘制 为 图 中 的 一 个 
节点 。 这 种 风格 是 清楚 而 明确 的 ， 但 对 于 比 这 个 例子 更 大 的 网 络 ， 它 可 能 会 消耗 太 多 的 空间 。( 右 / 
在 这 种 样式 中 ,我 们 将 表示 每 一 层 激活 的 整个 向 量 绘制 为 图 中 的 一 个 节点 。 这 种 样式 更 加 紧 竣 。 有 

















时 ,我 们 对 图 中 的 边 使 用 参数 名 进行 注释 ， 这 些 参数 是 
和 矩阵 W 描述 从 z 到 h 的 映射 ， 用 向 量 w 描述 从 h F 

















略 与 每 个 层 相关 联 的 截 距 参数 。 









































] 来 描述 两 层 之 间 的 关系 的 。 这 里 ,我 们 用 





























| y 的 映射 。 当 标记 这 种 图 时 ， 我 们 通常 省 








中 ,上 默认 的 推荐 是 使 用 由 激活 函数 g(z) = max{0, z} 定义 的 整流 线性 单元 rectified 
linear unit ) 或 者 称 为 ReLU (Jarrett et al., 2009b; Nair and Hinton, 2010a; Glorot 


et al., 2011a)， 如 图 6.3 所 示 。 


我 们 现在 可 以 指明 我 们 的 整个 网 络 是 


f(a; W,c, w,b) = w' max{0, W' z+ c} +b. (6.3) 


我 们 现在 可 以 给 出 XOR 问题 的 一 个 解 。 今 


以 及 b= 0。 


| ; (6.4) 
| i (6.5) 
| (6.6) 
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g(z) = max{0, z} 








图 6.3: 整流 线性 激活 函数 。 该 激活 函数 是 被 推荐 用 于 大 多 数 前 馈 神 经 网 络 的 默认 激活 函数 。 将 此 
函数 用 于 线性 变换 的 输出 将 产生 非 线 性 变换 。 然 而 ， 函 数 仍 然 非常 接近 线性 ， 在 这 种 意义 上 它 是 
具有 两 个 线性 部 分 的 分 段 线 性 函数 。 由 于 整流 线性 单元 几乎 是 线性 的 ， 因 此 它们 保留 了 许多 使 得 
线性 模型 易于 使 用 基于 梯度 的 方法 进行 优化 的 属性 。 它 们 还 保留 了 许多 使 得 线性 模型 能 够 泛 化 良 
好 的 属性 。 计 算 机 科学 的 一 个 公共 原则 是 ， 我 们 可 以 从 最 小 的 组 件 构建 复杂 的 系统 。 就 像 图 灵机 
的 内 存 只 需要 能 够 存储 0 或 1 的 状态 ,我 们 可 以 从 整流 线性 函数 构建 一 个 万 能 函数 近似 器 。 































































































进 制 输入 空间 中 全 部 的 四 个 点 ， 每 个 样本 占 一 行 ， 那么 矩阵 表示 为 : 


0 0 
= . (6.7) 
1 1 


神经 网 络 的 第 一 步 是 将 输入 和 矩阵 乘 以 第 一 层 的 权重 和 矩阵: 
TS 
xw=| |- (6.8) 
2 2 


然后 ， 我 们 加 上 偏 置 向 量 c， 得 到 
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在 这 个 空间 中 ， 所 有 的 样本 都 处 在 一 条 斜率 为 1 的 直线 上 。 当 我 们 沿 着 这 条 直线 移 
动 时 ,输出 需要 从 0 升 到 1， 然 后 再 降 回 0。 线 性 模型 不 能 实现 这 样 一 种 函数 。 为 了 
用 h 对 每 个 样本 求 值 ， 我 们 使 用 整流 线性 变换 : 


F j 
1 0 
a al (6.10) 
Qe 1 


这 个 变换 改变 了 样本 间 的 关系 。 它 们 不 再 处 于 同一 条 直线 上 了 。 如 图 6.1 所 示 ， 
它们 现在 处 在 一 个 可 以 用 线性 模型 解决 的 空间 上 。 
我 们 最 后 乘 以 一 个 权重 向 量 w: 
Hl 
Me (6.11) 


神经 网 络 对 这 一 批 次 中 的 每 个 样本 都 给 出 了 正确 的 结果 。 

在 这 个 例子 中 ， 我 们 简单 地 指定 了 解决 方案 ， 然 后 说 明 它 得 到 的 误差 为 零 。 在 
实际 情况 中 ， 可 能 会 有 数 十 亿 的 模型 参数 以 及 数 十 亿 的 训练 样本 ， 所 以 不 能 像 我 们 
这 里 做 的 那样 进行 简单 地 猜 解 。 与 之 相对 的 ， 基 于 梯度 的 优化 算法 可 以 找到 一 些 参 
数 使 得 产生 的 误差 非常 小 。 我 们 这 里 给 出 的 XOR 问题 的 解 处 在 损失 函数 的 全 局 最 
小 点 ， 所 以 梯度 下 降 算 法 可 以 收敛 到 这 一 点 。 梯度 下 降 算 法 还 可 以 找到 KOR 问题 一 
些 其 他 的 等 价 解 。 梯 度 下 降 算法 的 收敛 点 取决 于 参数 的 初始 值 。 在 实践 中 ,梯度 下 
降 通 常 不 会 找到 像 我 们 这 里 给 出 的 那 种 干净 的 、 容 易 理 解 的 、 整 数值 的 解 。 








6.2 ”基于 梯度 的 学 习 


设计 和 训练 神经 网 络 与 使 用 梯度 下 降 训练 其 他 任何 机 器 学 习 模 型 并 没有 太 大 不 
同 。 在 第 5.10 节 中 ， 我 们 描述 了 如 何 通 过 指定 一 个 优化 过 程 、 代 价 函 数 和 一 个 模型 
族 来 构建 一 个 机 顺 学 习 算 法 。 

我 们 到 目前 为 止 看 到 的 线性 模型 和 神经 网 络 的 最 大 区 别 ， 在 于 神经 网 络 的 非 线 
性 导致 大 多 数 我 们 感 兴趣 的 代价 函数 都 变 得 非 凸 。 这 意味 着 神经 网 络 的 训练 通常 使 
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用 和 迭代 的 、 基 于 梯度 的 优化 , 仅仅 使 得 代价 函数 达到 一 个 非常 小 的 值 ; 而 不 是 像 用 于 
训练 线性 回归 模型 的 线性 方程 求解 器 ， 或 者 用 于 训练 逻辑 回归 或 SVM 的 凸 优化 算 
法 那样 保证 全 局 收敛 。 凸 优化 从 任何 一 种 初始 参数 出 发 都 会 收敛 ( 理论 上 如 此 一 一 
在 实践 中 也 很 鲁 棒 但 可 能 会 遇 到 数值 问题 )。 用 于 非 凸 损失 函数 的 随机 梯度 下 降 没 有 
这 种 收敛 性 保证 ， 并 且 对 参数 的 初始 值 很 敏感 。 对 于 前 馈 神 经 网 络 ， 将 所 有 的 权重 
值 初始 化 为 小 随机 数 是 很 重要 的 。 偏 置 可 以 初始 化 为 零 或 者 小 的 正 值 。 这 种 用 于 训 
练 前 馈 神经 网 络 以 及 几乎 所 有 深度 模型 的 迭代 的 基于 梯度 的 优化 算法 会 在 第 第 八 章 
详细 介绍 ， 参 数 初 始 化 会 在 第 8.4 节 中 具体 说 明 。 就 目前 而 言 ， 只 需要 懂得 ， 训 练 算 
法 几乎 总 是 基于 使 用 梯度 来 使 得 代价 函数 下 降 的 各 种 方法 即 可 。 一 些 特别 的 算法 是 
对 梯度 下 降 思 想 的 改进 和 提纯 ( 在 第 4.3 节 中 介绍 ) 还 有 一 些 更 特别 的 ， 大 多 数 是 对 
随机 梯度 下 降 算 法 的 改进 (在 第 5.9 节 中 介绍 )。 

我 们 当然 也 可 以 用 梯度 下 降 来 训练 诸如 线性 回归 和 支持 向 量 机 之 类 的 模型 ， 并 
且 事 实 上 当 训 练 集 相当 大 时 这 是 很 常用 的 。 从 这 点 来 看 ， 训 练 神经 网 络 和 训练 其 他 
任何 模型 并 没有 太 大 区 别 。 计 算 梯度 对 于 神经 网 络 会 略微 复杂 一 些 ， 但 仍然 可 以 很 
高 效 而 精确 地 实现 。 第 6.5 节 将 会 介绍 如 何 用 反 向 传播 算法 以 及 它 的 现代 扩展 算法 来 
求 得 梯度 。 

和 其 他 的 机 器 学 习 模 型 一 样 ， 为 了 使 用 基于 梯度 的 学 习 方法 我 们 必须 选择 一 个 
代价 函数 ， 并 且 我 们 必须 选择 如 何 表示 模型 的 输出 。 现 在 ， 我 们 重 温 这 些 设计 上 的 
考虑 ， 并 且 特 别 强调 神经 网 络 的 情景 。 









































6.2.1 ”代价 函数 

深度 神经 网 络 设计 中 的 一 个 重要 方面 是 代价 函数 的 选择 。 幸 运 的 是 ， 神 经 网 络 
的 代价 函数 或 多 或 少 是 和 其 他 的 参数 模型 例如 线性 模型 的 代价 函数 相同 的 。 

在 大 多 数 情况 下 ， 我 们 的 参数 模型 定义 了 一 个 分 布 p(y | 2; 0) 并 且 我 们 简单 地 
使 用 最 大 似 然 原理 。 这 意味 着 我 们 使 用 训练 数据 和 模型 预测 间 的 交叉 依 作为 代价 天 
数 。 

有 时 ， 我 们 使 用 一 个 更 简单 的 方法 ， 不 是 预测 y 的 完整 概率 分 布 ， 而 是 仅仅 预 
测 在 给 定 zx 的 条 件 下 y 的 某 种 统计 量 。 某 些 专门 的 损失 函数 允许 我 们 来 训练 这 些 估 
计量 的 预测 器 。 

用 于 训练 神经 网 络 的 完整 的 代价 函数 ， 通 常 在 我 们 这 里 描述 的 基本 代价 函数 的 
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基础 上 结合 一 个 正则 项 。 我 们 已 经 在 第 5.2.2 节 中 看 到 正则 化 应 用 到 线性 模型 中 的 一 
些 简单 的 例子 。 用 于 线性 模型 的 权重 衰减 方法 也 直接 适用 于 深度 神经 网 络 ， 而 且 是 
最 流行 的 正则 化 策略 之 一 。 用 于 神经 网 络 的 更 高 级 的 正则 化 策略 将 在 第 七 章 中 讨论 。 





6.2.1.1 ”使 用 最 大 似 然 学 习 条 件 分 布 


大 多 数 现 代 的 神经 网 络 使 用 最 大 似 然 来 训练 。 这 意味 着 代价 函数 就 是 负 的 对 数 
似 然 ， 它 与 训练 数据 和 模型 分 布 间 的 交叉 人 等 价 。 这 个 代价 函数 表示 为 


J(0) = —Ex,y~Paata 108 pmoda(Y | £). (6.12) 














代价 函数 的 具体 形式 随 着 模型 而 改变 ， 取 决 于 log pmoaer 的 具体 形式 。 上 述 方程 
的 展开 形式 通常 会 有 一 些 项 不 依赖 于 模型 的 参数 ,我 们 可 以 舍 去 。 例 如 ， 正 如 我 们 
在 第 5.1.1 节 中 看 到 的 ， 如 果 pmaoaa(y | 2) = N (y; f(z;0), 了， 那么 我 们 恢复 均 方 误 
差 代 价 ， 











71(0) = TEx yoo Ny (æ; O)|]? + const; (6.13) 

至 少 系数 3 和 常数 项 不 依赖 于 9。 舍弃 的 常数 是 基于 高 斯 分 布 的 方差 ， 在 这 种 情况 
下 我 们 选择 不 把 它 参 数 化 。 之 前 ， 我 们 看 到 了 对 输出 分 布 的 最 大 似 然 估计 和 对 线性 
模型 均 方 误差 的 最 小 化 之 间 的 等 价 性 ,但 事实 上 ， 这 种 等 价 性 并 不 要 求 f(x;0) 用 于 
预测 高 斯 分 布 的 均值 。 

使 用 最 大 似 然 来 导出 代价 函数 的 方法 的 一 个 优势 是 ， 它 减轻 了 为 每 个 模型 设计 
代价 函数 的 负担 。 明 确 一 个 模型 p(y | x) 则 自动 地 确定 了 一 个 代价 函数 logply | 四 。 

贯穿 神经 网 络 设 计 的 一 个 反复 出 现 的 主题 是 代价 函数 的 梯度 必须 足够 的 大 和 有 具 
有 足够 的 预测 性 ， 来 为 学 习 算 法 提供 一 个 好 的 指引 。 饱 和 ( 变 得 非常 平 ) 的 函数 破 
坏 了 这 一 日 标 ， 因 为 它们 把 梯度 变 得 非常 小 。 这 在 很 多 情况 下 都 会 发 生 ， 因 为 用 于 
产生 隐藏 单元 或 者 输出 单元 的 输出 的 激活 函数 会 饱和 。 负 的 对 数 似 然 帮助 我 们 在 很 
多 模型 中 避免 这 个 问题 。 很 多 输出 单元 都 会 包含 一 个 指数 函数 ， 这 在 它 的 变量 取 绝 
对 值 非常 大 的 负 值 时 会 造成 饱和 。 负 对 数 似 然 代价 函数 中 的 对 数 函 数 消 除了 某 些 输 
出 单元 中 的 指数 效果 。 我 们 将 会 在 第 6.2.2 节 中 讨论 代价 函数 和 输出 单元 的 选择 间 的 
相互 作用 。 

用 于 实现 最 大 似 然 估计 的 交叉 炉 代 价 函 数 有 一 个 不 同 寻 常 的 特性 ， 那 就 是 当 它 
被 应 用 于 实践 中 经 常 遇 到 的 模型 时 ， 它 通常 没有 最 小 值 。 对 于 离散 型 输出 变量 ， 
多 数 模 型 以 一 种 特 丈 的 形式 来 参数 化 ， 即 它们 不 能 表示 概率 零 和 一 ， 但 是 可 以 无 限 
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接近 。 逮 辑 回归 是 其 中 一 个 例子 。 对 于 实 值 的 输出 变量 ， 如 果 模 型 可 以 控制 输出 分 
布 的 密度 〈 例如， 通过 学 习 高 斯 输出 分 布 的 方差 参数 )， 那 么 它 可 能 对 正确 的 训练 集 
输出 赋予 极其 高 的 密度 ， 这 将 导致 交叉 焙 趋 向 负 无 穷 。 第 七 章 中 描述 的 正则 化 技术 
提供 了 一 些 不 同 的 方法 来 修正 学 习 问 题 ， 使 得 模型 不 会 通过 这 种 方式 来 获得 无 限制 
的 收益 。 














6.2.1.2 ”学 习 条 件 统计 量 


有 时 我 们 并 不 是 想 学 习 一 个 完整 的 概率 分 布 p(y | xz; 9)， 而 仅仅 是 想 学 习 在 给 定 
Zz 时 y 的 某 个 条 件 统计 量 。 

例如 ， 我 们 可 能 有 一 个 预测 器 f(x; 9)， 我 们 想 用 它 来 预测 y 的 均值 。 如 果 我 
们 使 用 一 个 足够 强大 的 神经 网 络 ， 我 们 可 以 认为 这 个 神经 网 络 能 够 表示 一 大 类 也 
数 中 的 任何 一 个 孔 数 f， 这 个 类 仅仅 被 一 些 特征 所 限制 ， 例 如 连续 性 和 有 界 ， 而 不 
是 具有 特殊 的 参数 形式 。 从 这 个 角度 来 看 ， 我 们 可 以 把 代价 函数 看 作 是 一 个 泛 函 
(functional ) 而 不 仪 仅 是 一 个 函数 。 泛 函 是 函数 到 实数 的 映射 。 我 们 因此 可 以 将 学 习 
看 作 是 选择 一 个 函数 而 不 仅仅 是 选择 一 组 参数 。 我 们 可 以 设计 代价 泛 函 在 我 们 想 要 
的 某 些 特殊 函数 处 取得 最 小 值 。 例 如 , 我 们 可 以 设计 一 个 代价 泛 函 , 使 它 的 最 小 值 处 
于 一 个 特殊 的 函数 上 ， 这 个 函数 将 z 映射 到 给 定 x 时 y PER. ROR MEG 
问题 需要 用 到 变 分 法 (calculus of variations ) 这 个 数学 工具 ， 我 们 将 在 第 19.4.2 节 
中 讨论 。 理 解 变 分 法 对 于 理解 本 章 的 内 容 不 是 必要 的 。 目 前 ， 只 需要 知道 变 分 法 可 
以 被 用 来 导出 下 面 的 两 个 结 

我 们 使 用 变 分 法 导出 的 第 一 个 结果 是 解 优 化 问题 


























F= poe Ex.y~pastallY — f(D (6.14) 


得 到 








f° (x) = Lyn paata(yl2) [y], (6.15) 
要 求 这 个 函数 处 在 我 们 要 优化 的 类 里 。 换 名 话说， 如 果 我 们 能 够 用 无 穷 多 的 、 来 源 
于 真实 的 数据 生成 分 布 的 样本 进行 训练 ， 最 小 化 均 方 误差 代价 函数 将 得 到 一 个 函数 ， 
它 可 以 用 来 对 每 个 x 的 值 预测 出 y 的 均值 。 
不 同 的 代价 函数 给 出 不 同 的 统计 量 。 第 二 个 使 用 变 分 法 得 到 的 结果 是 














f= wee Ex.y~paatal|Y — f(2)||1 (6.16) 
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将 得 到 一 个 函数 可 以 对 每 个 z 预测 y 取 值 的 中 位 数 ， 只 要 这 个 函数 在 我 们 要 优化 的 
函数 族 里 。 这 个 代价 函数 通常 被 称 为 平均 绝对 误差 ( mean absolute error )。 

可 惜 的 是 ， 均 方 误差 和 平均 绝对 误差 在 使 用 基于 梯度 的 优化 方法 时 往往 成 效 不 
佳 。 一 些 饱和 的 输出 单元 当 结合 这 些 代 价 函 数 时 会 产生 非常 小 的 梯度 。 这 就 是 为 什 
么 交叉 炉 代价 函数 比 均 方 误 差 或 者 平均 绝对 误差 更 受 欢迎 的 原因 之 一 了 ， 即 使 是 在 
没 必 要 估计 整个 p(y | x) 分 布 时 。 


6.2.2 ”输出 单元 

代价 函数 的 选择 与 输出 单元 的 选择 紧密 相关 。 大 多 数 时 候 ， 我 们 简单 地 使 用 数 
据 分 布 和 模型 分 布 间 的 交叉 箭 。 选 择 如 何 表示 输出 决定 了 交叉 业 函 数 的 形式 。 

任何 可 用 作 输 出 的 神经 网 络 单元 ， 也 可 以 被 用 作 隐 藏 单 元 。 这 里 ， 我 们 着 重 讨 
论 将 这 些 单 元 用 作 模 型 输出 时 的 情况 ， 不 过 原则 上 它们 也 可 以 在 内 部 使 用 。 我 们 将 
在 第 6.3 节 中 重 温 这 些 单元 ， 并 且 给 出 当 它们 被 用 作 隐 藏 单元 时 一 些 额外 的 细节 。 

在 本 节 中 ， 我 们 假设 前 馈 网 络 提供 了 一 组 定义 为 h = f(z;9) 的 隐藏 特征 。 输 出 
层 的 作用 是 随后 对 这 些 特征 进行 一 些 额外 的 变换 来 完成 整个 网 络 必 须 完 成 的 任务 。 


6.2.2.1 ”用 于 高 斯 输出 分 布 的 线性 单元 

一 种 简单 的 输出 单元 是 基于 仿 射 变换 的 输出 单元 ， 仿 射 变换 不 具有 非 线性 。 这 
些 单元 往往 被 直接 称 为 线性 单元 。 

给 定 特征 h， 线性 输出 单元 层 产 生 一 个 向 量 负 = W h+ b 

线性 输出 层 经 党 被 用 来 产生 条 件 高 斯 分 布 的 均值 : 

Ply | £) =N(ys ¥, D). (6.17) 

最 大 化 其 对 数 似 然 此 时 等 价 于 最 小 化 均 方 误差 。 

最 大 似 然 框架 也 使 得 学 习 高 斯 分 布 的 协 方差 矩阵 更 加 容易 ， 或 更 容易 地 使 高 斯 
分 布 的 协 方差 矩阵 作为 输入 的 函数 。 然 而 ， 对 于 所 有 输入 ， 协 方差 矩阵 都 必须 被 限 
定 成 一 个 正定 矩阵 。 线 性 输出 层 很 难 满足 这 种 限定 ， 所 以 通常 使 用 其 他 的 输出 单元 
来 对 协 方差 参数 化 。 对 协 方差 建 模 的 方法 将 在 第 6.2.2.4 节 中 简要 介绍 。 

因为 线性 模型 不 会 饱和 ， 所 以 它们 易于 采用 基于 梯度 的 优化 算法 ， 其 至 可 以 使 
用 其 他 多 种 优化 算法 。 
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6.2.2.2 ”用 于 Bernoulli 输出 分 布 的 sigmoid 单元 


许多 任务 需要 预测 二 值 型 变量 y 的 值 。 具 有 两 个 类 的 分 类 问题 可 以 归结 为 这 种 
形式 。 

此 时 最 大 似 然 的 方法 是 定义 y 在 x 条件 下 的 Bernoulli 分 布 。 

Bernoulli 分 布 仅 需 单个 参数 来 定义 。 神 经 网 络 只 需要 预测 P(y = 1 | x) 即 可 。 
为 了 使 这 个 数 是 有 效 的 概率 ， 它 必须 处 在 区 间 [0,1] 中 。 

为 满足 该 约束 条 件 需 要 一 些 细致 的 设计 工作 。 假 设 我 们 打算 使 用 线性 单元 ， 并 
且 通 过 阔 值 来 限制 它 成 为 一 个 有 效 的 概率 : 


P(y=1 


x) = max {0,min{1,w' h + b}}. (6.18) 


这 的 确定 义 了 一 个 有 效 的 条 件 概 率 分 布 ， 但 我 们 无 法 使 用 梯度 下 降 来 高 效 地 训练 它 。 
wih + b 处 于 单位 区 间 外 时 ， 模 型 的 输出 对 其 参数 的 梯度 都 将 为 0。 梯 度 为 0 通 
常 是 有 问题 的 ， 因 为 学 习 算 法 对 于 如 何 改善 相应 的 参数 不 再 具有 指导 意义 。 

相反 ， 最 好 是 使 用 一 种 新 的 方法 来 保证 无 论 何 时 模型 给 出 了 错误 的 答案 时 ， 总 
能 有 一 个 较 大 的 梯度 。 这 种 方法 是 基于 使 用 sigmoid 输出 单元 结合 最 大 似 然 来 实现 
的 。 

sigmoid 输出 单元 定义 为 





jg =o (w'h+b), (6.19) 


这 里 o FEB 3.10 节 中 介绍 的 logistic sigmoid 函数 。 

我 们 可 以 认为 sigmoid 输出 单元 具有 两 个 部 分 。 首 先 ， 它 使 用 一 个 线性 层 来 计 
Bz=wht+b. a, EEA sigmoid 激活 函数 将 z 转化 成 概率 。 

我 们 暂时 忽略 对 于 z 的 依赖 性 ， 只 讨论 如 何 用 2 的 值 来 定义 y 的 概率 分 布 。 
sigmoid 可 以 通过 构造 一 个 非 归 一 化 (和 不 为 1 ) 的 概率 分 布 P(y) 来 得 到 。 我 们 可 
以 随后 除 以 一 个 合适 的 常数 来 得 到 有 效 的 概率 分 布 。 如 果 我 们 假定 非 归 一 化 的 对 数 
概率 对 y 和 z 是 线性 的 ， 可 以 对 它 取 指 数 来 得 到 非 归 一 化 的 概率 。 我 们 然后 对 它 归 
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一 化 ， 可 以 发 现 这 服从 Bernoulli 分 布 ， 该 分 布 受 z 的 sigmoid 变换 控制 : 





log P(y) = yz, (6.20) 
P(y) = exp(y2), (6.21) 

_ __ explyz) _ 
Ply) = Sonus (6.22) 
P(y) = o((2y — 1)z). (6.23) 


基于 指数 和 归 一 化 的 概率 分 布 在 统计 建 模 的 文献 中 很 常见 。 用 于 定义 这 种 二 值 型 变 
量 分 布 的 变量 z 被 称 为 分 对 数 (logit )。 

这 种 在 对 数 空间 里 预测 概率 的 方法 可 以 很 自然 地 使 用 最 大 似 然 学 习 。 因 为 用 于 
最 大 似 然 的 代价 函数 是 -log P(y | xz)， 代 价 函数 中 的 log 抵消 了 sigmoid 中 的 exp. 
如 果 没 有 这 个 效果 ，sigmoid 的 饱和 性 会 阻止 基于 梯度 的 学 习 做 出 好 的 改进 。 我 们 使 
用 最 大 似 然 来 学 习 一 个 由 sigmoid 参数 化 的 Bernoulli 分 布 ， 它 的 损失 函数 为 





J(0) = — log Ply | x) (6.24) 
= — log a((2y — 1)z) (6.25) 
= ¢((1— 24)2). (6.26) 


这 个 推导 使 用 了 第 3.10 节 中 的 一 些 性 质 。 通 过 将 损失 函数 写成 softplus 函数 的 
形式 ， 我 们 可 以 看 到 它 仅 仅 在 (1 一 2y)z 取 绝 对 值 非常 大 的 负 值 时 才 会 饱和 。 因 此 饮 
和 只 会 出 现在 模型 已 经 得 到 正确 答案 时 一 一 当 y = 1 H z 取 非 常 大 的 正 值 时 ,或 者 
y=0 H z 取 非 常 小 的 负 值 时 。 当 z 的 符号 错误 时 ，softplus 函数 的 变量 (1 一 2y)z 
可 以 简化 为 |z|。 当 |z| 变 得 很 大 并 且 > 的 符号 错误 时 ，softplus 函数 渐 近 地 趋向 于 它 
的 变量 |z|。 对 z 求 导 则 渐 近 地 趋向 于 sign(z)， 所 以 ,对 于 极限 情况 下 极度 不 正确 的 
z, softplus 函数 完全 不 会 收缩 梯度 。 这 个 性 质 很 8 用 ， 因 为 它 意 味 着 基于 梯度 的 学 
习 可 以 很 快 地 改正 错误 的 zo 

当 我 们 使 用 其 他 的 损失 函数 ， 例 如 均 方 误差 之 类 的 ， 损 失 函 数 会 在 o(z) 饱和 时 
饱和 。sigmoid 激活 函数 在 > 取 非 常 小 的 负 值 时 会 饱和 到 0， 当 > 取 非 常 大 的 正 值 时 
会 饱和 到 1。 这 种 情况 一 旦 发 生 ， 梯 度 会 变 得 非常 小 以 至 于 不 能 用 来 学 习 ， 无论 此 时 
模型 给 出 的 是 正确 还 是 错误 的 答案 。 因 此 ， 最 大 似 然 几乎 总 是 训练 sigmoid 输出 单 
元 的 优选 方法 。 

理论 上 ，sigmoid 的 对 数 总 是 确定 和 有 限 的 ， 因 为 sigmoid 的 返回 值 总 是 被 限制 
在 开 区 间 (0,1) 上 ， 而 不 是 使 用 整个 闭 区 间 [0, 1] 的 有 效 概率 。 在 软件 实现 时 ， 为 了 
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避免 数值 问题 ， 最 好 将 负 的 对 数 似 然 写 作 z 的 函数 ， 而 不 是 $= o(z) 的 函数 。 如 
果 sigmoid 函数 下 溢 到 零 ， 那 么 之 后 对 少 取 对 数 会 得 到 负 无 穷 。 


6.2.2.3 AF Multinoulli 输出 分 布 的 softmax 单元 


任何 时 候 当 我 们 想 要 表示 一 个 具有 n 个 可 能 取 值 的 离散 型 随机 变量 的 分 布 时 ， 
我 们 都 可 以 使 用 softmax 函数 。 它 可 以 看 作 是 sigmoid 函数 的 扩展 ， 其 中 sigmoid K 
数 用 来 表示 二 值 型 变量 的 分 布 。 

softmax 函数 最 常用 作 分 类 器 的 输出 ， 来 表示 个 不 同类 上 的 概率 分 布 。 比 较 
少见 的 是 ，softmax 函数 可 以 在 模型 内 部 使 用 , 例如 如 果 我 们 想 要 在 某 个 内 部 变量 的 
n 个 不 同 选 项 中 进行 选择 。 

在 二 值 型 变量 的 情况 下 ， 我 们 希望 计算 一 个 单独 的 数 

ĝ = P(y=1| 2). (6.27) 
因为 这 个 数 需要 处 在 0 和 1 之 间 ， 并 且 我 们 想 要 让 这 个 数 的 对 数 可 以 很 好 地 用 于 对 
数 似 然 的 基于 梯度 的 优化 ,我们 选择 去 预测 另外 一 个 数 z = log P(y = 1 | xz)。 对 其 
旨 数 化 和 归 一 化 ， 我 们 就 得 到 了 一 个 由 sigmoid 函数 控制 的 Bernoulli 分 布 。 

为 了 推广 到 具有 n 个 值 的 离散 型 变量 的 情况 ， 我们 现在 需要 创造 一 个 向 量 Y, 
它 的 每 个 元 素 是 各 = P(y = i| 四。 我 们 不 仅 要 求 每 个 9, 元 素 介 于 0 和 1 之 间 ， 还 
要 使 得 整个 向 量 的 和 为 1， 使 得 它 表示 一 个 有 效 的 概率 分 布 。 用 于 Bernoulli 分 布 的 
方法 同样 可 以 推广 到 Multinoulli 分 布 。 首先， 线性 层 预测 了 未 归 一 化 的 对 数 概率 : 

z= W'h+b, (6.28) 


其 中 z = log P(y =i | x). softmax 函数 然后 可 以 对 z 指数 化 和 归 一 化 来 获得 需要 
的 Jo HA, softmax 函数 的 形式 为 
exp(%i) 
softmax(z); = E, exp(z) (6.29) 
和 logistic sigmoid 一 样 ， 当 使 用 最 大 化 对 数 似 然 训练 softmax 来 输出 目标 值 y 
时 ， 使 用 指数 函数 工作 地 非常 好 。 这 种 情况 下 ， 我 们 想 要 最 大 化 log P(y = i;z) = 
log softmax(z)ji。 将 softmax 定义 成 指数 的 形式 是 很 自然 的 因为 对 数 似 然 中 的 log 可 
以 抵消 softmax 中 的 exp: 


log softmax(z); = 2; — log $` exp(z;). (6.30) 
J 
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式 (6.30) 中 的 第 一 项 表示 输入 2; 总 是 对 代价 也 数 有 直接 的 贡献 。 因 为 这 一 项 不 
会 饱和 , 所 以 即使 z; 对 式 (6.30) 的 第 二 项 的 贡献 很 小 , 学 习 依然 可 以 进行 。 当 最 大 化 
对 数 似 然 时 , 第 一 项 鼓励 z 被 推 高 , 而 第 二 项 则 鼓励 所 有 的 z 被 压低 。 为 了 对 第 二 项 
log >) exp(z;) 有 一 个 直观 的 理解 , 注意 到 这 一 项 可 以 大 致 近似 为 max; zjo 这 种 近似 
是 基于 对 任何 明显 小 于 max; zj 的 ze, exp(zn) 都 是 不 重要 的 。 我 们 能 从 这 种 近似 中 
得 到 的 直觉 是 , 负 对 数 似 然 代价 函数 总 是 强烈 地 惩罚 最 活跃 的 不 正确 预测 。 如 果 正 确 
答案 已 经 具有 了 softmax 的 最 大 输入 ， 那 么 —z; 项 和 log X; exp(z;) =~ max; 2; = 2; 
项 将 大 致 抵消 。 这 个 样本 对 于 整体 训练 代价 贡献 很 小 ， 这 个 代价 主要 由 其 他 未 被 正 
确 分 类 的 样本 产生 。 

到 目前 为 止 我 们 只 讨论 了 一 个 例子 。 总 体 来 说 ， 未 正则 化 的 最 大 似 然 会 驱动 模 
型 去 学 习 一 些 参 数 ， 而 这 些 参数 会 驱动 softmax 函数 来 预测 在 训练 集中 观察 到 的 每 
个 结果 的 比率 : 





De L@Oxiald=2 
Bi LoS 
因为 最 大 似 然 是 一 致 的 估计 量 ， 所 以 只 要 模型 族 能 够 表示 训练 的 分 布 ， 这 就 能 保证 
发 生 。 在 实践 中 ， 有 限 的 模型 能 力 和 不 完美 的 优化 将 意味 着 模型 只 能 近似 这 些 比 率 。 

除了 对 数 似 然 之 外 的 许多 目标 函数 对 softmax 国 数 不 起 作用 。 有 具体 来 说 ， 那 些 
不 使 用 对 数 来 抵消 softmax 中 的 指数 的 目标 函数 ， 当 指数 函数 的 变量 取 非 常 小 的 负 
值 时 会 造成 梯度 消失 ,从 而 无 法 学 习 。 特别 是 , 平方 误差 对 于 softmax 单元 来 说 是 一 
个 很 差 的 损失 函数 ， 即 使 模型 做 出 高 度 可 信和 的 不 正确 预测 ， 也 不 能 训练 模型 改变 其 
输出 (Bridle, 1990)。 要 理解 为 什么 这 些 损失 函数 可 能 失败 ， 我 们 需要 检查 softmax 
函数 本 刁 。 

像 sigmoid 一 样 ，softmax 激活 函数 可 能 会 饱和 。sigmoid 函数 具有 单个 输出 ， 
当 它 的 输入 极端 负 或 者 极端 正 时 会 饱和 。 对 于 softmax 的 情况 ， 它 有 多 个 输出 值 。 
当 输 入 值 之 间 的 差异 变 得 极端 时 ， 这 些 输出 值 可 能 饱和 。 当 softmax 饱和 时 ， 基 于 
softmax 的 许多 代价 函数 也 饱和 ， 除 非 它们 能 人 够 转化 饱和 的 激活 函数 。 

为 了 说 明 softmax 函数 对 于 输入 之 间 差 异 的 响应 ， 观 察 到 当 对 所 有 的 输入 都 加 
上 一 个 相同 常数 时 softmax 的 输出 不 变 : 


softmax(z(x;@)); ~ (6.31) 











softmax(z) = softmax(z-+ c). (6.32) 
使 用 这 个 性 质 ， 我 们 可 以 导出 一 个 数值 方法 稳定 的 softmax 函数 的 变 体 : 


softmax(z) = softmax(z— max zi). (6.33) 
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变换 后 的 形式 允许 我 们 在 对 softmax 函数 求 值 时 只 有 很 小 的 数值 误差 ， 即 使 是 当 > 
包含 极 正 或 者 极 负 的 数 时 。 观 察 softmax 数值 稳定 的 变 体 ， 可 以 看 到 softmax 函数 
由 它 的 变量 偏离 max, z 的 量 来 驱动 。 

当 其 中 一 个 输入 是 最 大 (zi = max zi) IFA 远大 于 其 他 的 输入 时 ， 相 应 的 
输出 softmax(z) 会 饱和 到 1。 当 z 不 是 最 大 值 并 且 最 大 值 非常 大 时 ， 相 应 的 输出 
softmax(z), 也 会 饱和 到 0。 这 是 sigmoid 单元 饱和 方式 的 一 般 化 ， 并 且 如 果 损 失 函 
数 不 被 设计 成 对 其 进行 补偿 ， 那 么 也 会 造成 类 似 的 学 习 困 难 。 

softmax 因数 的 变量 z 可 以 通过 两 种 方式 产生 。 最 常见 的 是 简单 地 使 神经 网 络 
较 早 的 层 输出 z 的 每 个 元 素 ， 就 像 先前 描述 的 使 用 线性 层 z = W 'h 十 5b。 虽然 很 直 
观 ， 但 这 种 方法 是 对 分 布 的 过 度 参 数 化 。n 个 输出 总 和 必须 为 1 的 约束 意味 着 只 有 
n 一 1 个 参数 是 必要 的 ; 第 n 个 概率 值 可 以 通过 1 减 去 前 面 n 一 1 个 概率 来 获得 。 
此 ， 我 们 可 以 强制 要 求 z 的 一 个 元 素 是 固定 的 。 例 如 ， 我 们 可 以 要 求 zn = 0。 事 实 
上 ， 这 正 是 sigmoid 单元 所 做 的 。 定 义 Ply =1 | x) = o(z) 等 价 于 用 二 维 的 z 以 及 
zı =0 KEM P(y =1| x) =softmax(z)). Hite n -1 个 变量 还 是 n 个 变量 的 方 
法 ， 都 描述 了 相同 的 概率 分 布 ， 但 会 产生 不 同 的 学 习 机 制 。 在 实践 中 ， 无 论 是 过 度 
参数 化 的 版 本 还 是 限制 的 版 本 都 很 少 有 差别 ， 并 且 实 现 过 度 参数 化 的 版 本 更 为 简单 。 

从 神经 科学 的 角度 看 ， 有 趣 的 是 认为 softmax 是 一 种 在 参与 其 中 的 单元 之 间 形 
成 竞争 的 方式 : softmax 输出 总 是 和 为 1， 所 以 一 个 单元 的 值 增加 必然 对 应 着 其 他 单 
元 值 的 减少 。 这 与 被 认为 存在 于 皮质 中 相 邻 神经 元 间 的 侧 抑制 类 似 。 在 极端 情况 下 
( 当 最 大 的 a; 和 其 他 的 在 幅度 上 差异 很 大 时 )， 它 变 成 了 赢 者 通 吃 ( winner-take-all ) 
的 形式 〈 其 中 一 个 输出 接近 1， 其 他 的 接近 0 )。 

“softmax” 的 名 称 可 能 会 让 人 产生 困惑 。 这 个 函数 更 接近 于 argmax PRACT AE 
max AŽ. “soft” AARET softmax 国 数 是 连续 可 微 的 “argmax” 国 数 的 结 
果 表 示 为 一 个 one-hot 癌 量 ( 只 有 一 个 元 素 为 1， 其 余 元 素 都 为 0 的 向 量 )， 不 是 连续 
和 可 微 的 。softmax 函数 因此 提供 了 argmax 的 “软化 ”版 本 。max 函数 相应 的 软化 
版 本 是 softmax(z)'z。 可 能 最 好 是 把 softmax 函数 称 为 “softargmax”， 但 当前 名 称 
已 经 是 一 个 根深 蒂 固 的 习惯 了 。 















































6.2.2.4 ”其 他 的 输出 类 型 


之 前 描述 的 线性 、sigmoid 和 softmax 输出 单元 是 最 常见 的 。 神 经 网 络 可 以 推广 
到 我 们 希望 的 几乎 任何 种 类 的 输出 层 。 最 大 似 然 原则 给 如 何 为 几乎 任何 种 类 的 输出 
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层 设 计 一 个 好 的 代价 函数 提供 了 指导 。 

一 般 的 ， 如 果 我 们 定义 了 一 个 条 件 分 布 p(y| z;0)， 最 大 似 然 原 则 建议 我 们 使 用 
—log p(y | x; 0) 作为 代价 函数 。 

一 般 来 说 ， 我 们 可 以 认为 神经 网 络 表示 函数 f(x; 0)。 这 个 函数 的 输出 不 是 对 y 
值 的 直接 预测 。 相 反 ，f(z; 0) =w 提供 了 y 分 布 的 参数 。 我 们 的 损失 明 数 就 可 以 表 
示 成 — log p(y; w(£))- 

例如 ， 我 们 想 要 学 习 在 给 定 x 时 ，y 的 条 件 高 斯 分 布 的 方差 。 简 单 情况 下 ， 方 
差 o? 是 一 个 常数 ， 此 时 有 一 个 解析 表达 式 ， 这 是 因为 方差 的 最 大 似 然 估计 量 仅仅 是 
观测 值 y 与 它们 的 期 望 值 的 差 值 的 平方 平均 。 一 种 计算 上 代价 更 加 高 但 是 不 需要 写 
特殊 情况 代码 的 方法 是 简单 地 将 方差 作为 分 布 p(y | x) 的 其 中 一 个 属性 ， 这 个 分 布 
由 w = f(a; 9) 控制 。 负 对 数 似 然 一 log p(y; wla) 将 为 代价 函数 提供 一 个 必要 的 合 
适 项 来 使 我 们 的 优化 过 程 可 以 逐渐 地 学 到 方差 。 在 标准 差 不 依 赖 于 输入 的 简单 情况 
下 ， 我 们 可 以 在 网 络 中 创建 一 个 直接 复制 到 w 中 的 新 参数 。 这 个 新 参数 可 以 是 o 本 
身 ， 或 者 可 以 是 表示 o? 的 参数 v, 或 者 可 以 是 表示 点 的 参数 8， 取决 于 我 们 怎样 
对 分 布 参数 化 。 我 们 可 能 希望 模型 对 不 同 的 x 值 预测 出 y 不 同 的 方差 。 这 被 称 为 异 
方差 (heteroscedastic ) 模型 。 在 异 方差 情况 下 ， 我们 简单 地 把 方差 指定 为 f(x; 0) 
其 中 一 个 输出 值 。 实 现 它 的 典型 方法 是 使 用 精度 而 不 是 方差 来 表示 高 斯 分 布 ， 就 像 
式 (3.22) 所 描述 的 。 在 多 维 变量 的 情况 下 ， 最 常见 的 是 使 用 一 个 对 角 精 度 和 矩阵 


diag(G). (6.34) 


这 个 公式 适用 于 梯度 下 降 ， 因 为 由 B 参数 化 的 高 斯 分 布 的 对 数 似 然 的 公式 仅 涉及 Bi 
的 乘法 和 log 8; 的 加 法 。 乘 法 、 加 法 和 对 数 运算 的 梯度 表现 良好 。 相 比 之 下 ， 如 果 
我 们 用 方差 来 参数 化 输出， 我 们 需要 用 到 除法 。 除 法 函数 在 零 附近 会 变 得 任意 陡峭 。 
虽然 大 梯度 可 以 帮助 学 习 ， 但 任意 大 的 梯度 通常 导致 不 稳定 。 如 果 我 们 用 标准 差 来 
参数 化 输出 ， 对 数 似 然 仍然 会 涉及 除法 ， 并 且 还 将 涉及 平方 。 通 过 平方 运算 的 梯度 
可 能 在 零 附近 消失 ,， 这 使 得 学 习 被 平方 的 参数 变 得 困难 。 无 论 我 们 使 用 的 是 标准 差 ， 
方差 还 是 精度 ， 我 们 必须 确保 高 斯 分 布 的 协 方差 矩阵 是 正定 的 。 因 为 精度 矩阵 的 特 
征 值 是 协 方差 矩阵 特征 值 的 倒数 ， 所 以 这 等 价 于 确保 精度 矩阵 是 正定 的 。 如 果 我 们 
使 用 对 角 和 天 阵 ， 或 者 是 一 个 常数 乘 以 单位 矩阵 1!， 那 么 我 们 需要 对 模型 输出 强加 的 唯 
一 条 件 是 它 的 元 素 都 为 正 。 如 果 我 们 假设 a 是 用 于 确定 对 角 精 度 的 模型 的 原始 激活 ， 

1 译 者 注 : 这 里 原文 是 “If we use a diagonal matrix, or a scalar times the diagonal matrix..” 即 “如 果 我 们 使 


用 对 角 和 矩阵， 或 者 是 一 个 标量 乘 以 对 角 和 矩阵 …”， 但 一 个 标量 乘 以 对 角 和 矩阵 和 对 角 抢 阵 没 区 别 ， 结 合 上 下 文 可 以 看 出 ， 
这 里 原作 者 误 把 “identity” 写 成 了 “diagonal matrix”， 因 此 这 里 采用 “常数 乘 以 单位 矩阵 ”的 译 法 。 
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那么 可 以 用 softplus 也 数 来 获得 正 的 精度 问 量 : B = 6(wj。 这 种 相同 的 策略 对 于 方 
差 或 标准 差 同 样 适 用 ， 也 适用 于 常数 乘 以 单位 阵 的 情况 。 

学 习 一 个 比 对 角 和 拖 阵 具有 更 丰富 结构 的 协 方差 或 者 精度 抢 阵 是 很 少见 的 。 如 果 
协 方差 矩阵 是 满 的 和 有 条 件 的 ， 那 么 参数 化 的 选择 就 必须 要 保证 预测 的 协 方差 矩阵 
是 正定 的 。 这 可 以 通过 写成 d(x) = B(x) B' (x) 来 实现 ， 这 里 B 是 一 个 无 约束 的 
方 阵 。 如 果 和 矩阵 是 满 秩 的 ， 那 么 一 个 实际 问题 是 计算 代价 似 然 是 很 高 的 ， 计 算 一 个 
dx d 的 矩阵 的 行列 式 或 者 D(x) WA (或 者 等 价 地 并 日 更 常用 地 ， 对 它 特征 值 分 解 
或 者 B(x) 的 特征 值 分 解 ) 需要 O(d*) 的 计算 量 。 

我 们 经 常 想 要 执行 多 峰 回 归 (multimodal regression)， 即 预测 条 件 分 布 p(y | x) 
的 实 值 ， 该 条 件 分 布 对 于 相同 的 xz 值 在 y 空间 中 有 多 个 不 同 的 峰值 。 在 这 种 情况 下 ， 
高 斯 混合 是 输出 的 自然 表示 (Jacobs et al., 1991; Bishop, 1994)。 将 高 斯 混合 作为 其 
输出 的 神经 网 络 通常 被 称 为 混合 密度 网 络 ( mixture density network )。 具 有 n 个 分 
量 的 高 斯 混合 输出 由 下 面 的 条 件 分 布 定义 : 


p(y | £) = 2_7( =i | 四 NA (x), 5 (2). (6.35) 


神经 网 络 必须 有 三 个 输出 : 定义 ple =i | x) 的 向 量 ， 对 所 有 的 i 给 出 O(a) WE 
阵 ， 以 及 对 所 有 的 i 给 出 DO (x) 的 张 量 。 这 些 输出 必须 满足 不 同 的 约束 : 





1. 混合 组 件 pfc = i | 四 : EMAAR Be? c KK, En 个 不 同 组 件 上 形 
成 Multinoulli 分 布 。 这 个 分 布 通常 可 以 由 n 维 向 量 的 softmax 来 获得 ， 以 确 
保 这 些 输 出 是 正 的 并 且 和 为 1。 


N 


. 均值 O(a): 它们 指明 了 与 第 i 个 高 斯 组 件 相 关联 的 中 心 或 者 均值 ， 并 且 是 无 
约束 的 (通常 对 于 这 些 输出 单元 完全 没有 非 线性 )。 如 果 y 是 个 d 维 向 量 ， 那 
么 网 络 必须 输出 一 个 由 n 个 这 种 a 维 向 量 组 成 的 n x a 的 矩阵 。 用 最 大 似 然 来 
学 习 这 些 均值 要 比 学 习 只 有 一 个 输出 模式 的 分 布 的 均值 稍稍 复杂 一 些 。 我 们 只 
想 更 新 那个 真正 产生 观测 数据 的 组 件 的 均值 。 在 实践 中 ， 我 们 并 不 知道 是 哪个 
组 件 产 生 了 观测 数据 。 负 对 数 似 然 表 达 式 将 每 个 样本 对 每 个 组 件 的 贡献 进行 赋 
权 ， 权 重 的 大 小 由 相应 的 组 件 产 生 这 个 样本 的 概率 来 决定 。 


?我 们 之 所 以 认为 c 是 潜在 的 ， 是 因为 我 们 不 能 直接 在 数据 中 观测 到 它 : 给 定 输入 x 和 目标 y， 不 可 能 确切 地 知道 
哪个 高 斯 组 件 产生 y， 但 我 们 可 以 想象 y 是 通过 选择 其 中 一 个 来 产生 的 ， 并 且 将 那个 未 被 观测 到 的 选择 作为 随机 变 
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3. 协 方差 DO (x): 它们 指明 了 每 个 组 件 i 的 协 方差 矩阵 。 和 学 习 单个 高 斯 组 件 时 
一 样 ， 我 们 通常 使 用 对 角 和 矩阵 来 避免 计算 行列 式 。 和 学 习 混 合 均值 时 一 样 ， 最 
大 似 然 是 很 复杂 的 ， 它 需要 将 每 个 点 的 部 分 责任 分 配给 每 个 混合 组 件 。 如 果 给 
定 了 混合 模型 的 正确 的 负 对 数 似 然 ， 梯 度 下 降 将 自动 地 遵循 正确 的 过 程 。 





有 报告 说 基于 梯度 的 优化 方法 对 于 混合 条 件 高 斯 (作为 神经 网 络 的 输出 ) 可 能 是 不 
可 靠 的 , 部 分 是 因为 涉及 到 除法 ( 除 以 方差 ) 可 能 是 数值 不 稳定 的 ( 当 某 个 方差 对 于 
特定 的 实例 变 得 非常 小 时 ， 会 导致 非常 大 的 梯度 )。 一 种 解决 方法 是 梯度 截断 (clip 
gradient ) ( 见 第 10.11.1 节 )， 另 外 一 种 是 启发 式 缩放 梯度 (Murray and Larochelle 
2014)。 


高 斯 混合 输出 在 语音 生成 模型 (Schuster, 1999) 和 物理 运动 (Graves, 2013) 中 特 
别 有 效 。 混 合 密度 策略 为 网 络 提供 了 一 种 方法 来 表示 多 种 输出 模式 ， 并 且 控 制 输出 
的 方差 ， 这 对 于 在 这 些 实数 域 中 获得 高 质量 的 结果 是 至 关 重 要 的 。 混 合 密度 网 络 的 
一 个 实例 如 图 6.4 所 示 。 











图 6.4: 从 具有 混合 密度 输出 层 的 神经 网 络 中 抽取 的 样本 。 输 入 xz 从 均匀 分 布 中 采样 ， 输 出 y 从 
Pmodei(y | £) 中 采样 。 神 经 网 络 能 够 学 习 从 输入 到 输出 分 布 的 参数 的 非 线性 映射 。 这 些 参数 包括 控 
制 三 个 组 件 中 的 哪 一 个 将 产生 输出 的 概率 ， 以 及 每 个 组 件 各 自 的 参数 。 每 个 混合 组 件 都 是 高 斯 分 
布 , 具有 预测 的 均值 和 方差 。 输 出 分 布 的 这 些 方面 都 能 够 相对 输入 z 变化 ， 并 且 以 非 线性 的 方式 


改变 。 







































































一 般 的， 我 们 可 能 希望 继续 对 包含 更 多 变量 的 、 更 大 的 向 量 y 来 建 模 ， 并 在 
这 些 输出 变量 上 施加 更 多 更 丰富 的 结构 。 例 如 ,我们 可 能 希望 神经 网 络 输 出 字符 序 
列 形成 一 个 句子 。 在 这 些 情况 下 ， 我 们 可 以 继续 使 用 最 大 似 然 原 理应 用 到 我 们 的 模 
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型 p(yseo(a)) 上 ， 但 我 们 用 来 描述 y 的 模型 会 变 得 非常 复杂 ， 超 出 了 本 章 的 范畴 。 
第 十 章 描述 了 如 何 使 用 循环 神经 网 络 来 定义 这 种 序列 上 的 模型 ， 第 三 部 分 描述 了 对 
任意 概率 分 布 进 行 建 模 的 高 级 技术 。 


6.3 ”隐藏 单元 


到 目前 为 止 , 我 们 集中 讨论 了 神经 网 络 的 设计 选择 , 这 对 于 使 用 基于 梯度 的 优化 
方法 来 训练 的 大 多 数 参数 化 机 器 学 习 模型 都 是 通用 的 。 现 在 我 们 转向 一 个 前 馈 神经 
网 络 独 有 的 问题 : 该 如 何 选 择 隐 藏 单元 的 类 型 ， 这 些 隐藏 单元 用 在 模型 的 隐藏 层 中 。 

隐藏 单元 的 设计 是 一 个 非常 活跃 的 研究 领域 ， 并 且 还 没有 许多 明确 的 指导 性 理 
论 原则 。 

整流 线性 单元 是 隐藏 单元 极 好 的 默认 选择 。 许 多 其 他 类 型 的 隐藏 单 元 也 是 可 用 
的 。 决 定 何 时 使 用 哪 种 类 型 的 隐藏 单元 是 困难 的 事 〈 尽 管 整流 线性 单元 通常 是 一 个 
可 接受 的 选择 )。 我 们 这 里 描述 对 于 每 种 隐藏 单元 的 一 些 基本 直觉 。 这 些 直 觉 可 以 用 
来 建议 我 们 何 时 来 尝试 一 些 单元 。 通 常 不 可 能 预先 预测 出 哪 种 隐藏 单元 工作 得 最 好 。 
设计 过 程 充满 了 试验 和 错误 ， 先 直觉 认为 某 种 隐藏 单元 可 能 表现 良好 ， 然 后 用 它 组 
成 神经 网 络 进 行 训 练 ， 最 后 用 验证 集 来 评估 它 的 性 能 。 

这 里 列 出 的 一 些 隐 藏 单元 可 能 并 不 是 在 所 有 的 输入 点 上 都 是 可 微 的 。 例 如 ， 整 
流 线 性 单元 g(z) = max{0;z} 在 z = 0 处 不 可 微 。 这 似乎 使 得 9 对 于 基于 梯度 的 学 
习 算 法 无 效 。 在 实践 中 , 梯度 下 降 对 这 些 机 需 学 习 模型 仍然 表现 得 足够 好 。 部 分 原因 
是 神经 网 络 训练 算法 通 稼 不 会 达到 代价 函数 的 局 部 最 小 值 ， 而 是 仅仅 显著 地 减 小 它 
的 值 ， 如 图 4.3 所 示 。 这 些 想法 会 在 第 八 章 中 进一步 描述 。 因 为 我 们 不 再 期 望 训练 能 
够 实际 到 达 梯 度 为 0 的 点 ， 所 以 代价 函数 的 最 小 值 对 应 于 梯度 未 定义 的 点 是 可 以 接 
受 的 。 不 可 微 的 隐藏 单元 通常 只 在 少数 点 上 不 可 微 。 一 般 来 说 ,函数 g(z) 具有 左 导 
数 和 右 导 数 ， 左 导数 定义 为 紧邻 在 z 左边 的 函数 的 斜率 ， 右 导数 定义 为 紧邻 在 z 右 
边 的 函数 的 斜率 。 只 有 当 函 数 在 z 处 的 左 导数 和 右 导 数 都 有 定义 并 且 相 等 时 ， 函 数 
在 z 点 处 才 是 可 微 的 。 神 经 网 络 中 用 到 的 函数 通常 对 左 导数 和 右 导 数 都 有 定义 。 在 
g(z) = max{0, z} 的 情况 下 ,在 z = 0 处 的 左 导数 是 0， 右 导数 是 1。 神 经 网 络 训练 
的 软件 实现 通常 返回 左 导 数 或 右 导 数 的 其 中 一 个 ， 而 不 是 报告 导数 未 定义 或 产生 一 
个 错误 。 这 可 以 通过 观察 到 在 数字 计算 机 上 基于 梯度 的 优化 总 是 会 受到 数值 误差 的 
影响 来 启发 式 地 给 出 理由 。 当 一 个 函数 被 要 求 计算 g(0) 时 ， 底 层 值 真正 为 0 是 不 太 
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可 能 的 。 相 对 的 ， 它 可 能 是 被 舍 入 为 0 的 一 个 小 量 e。 在 某 些 情况 下 ,理论 上 有 更 好 
的 理由 ， 但 这 些 通常 对 神经 网 络 训练 并 不 适用 。 重 要 的 是 ， 在 实践 中 ， 我 们 可 以 放 
心地 忽略 下 面 描述 的 隐藏 单元 激活 函数 的 不 可 微 性 。 

除非 另 有 说 明 ， 大 多 数 的 隐藏 单元 都 可 以 描述 为 接受 输入 向 量 z， 计 算 仿 射 变 
换 z= W' zx 十 b， 然 后 使 用 一 个 逐 元 素 的 非 线性 函数 g(z)。 大 多 数 隐藏 单元 的 区 别 
仅仅 在 于 激活 函数 g(z) 的 形式 。 














6.3.1 ”整流 线性 单元 及 其 扩展 


流 线 性 单元 使 用 激活 函数 g(z) = max{0, z}。 

流 线 性 单元 易于 优化 ， 因 为 它们 和 线性 单元 非常 类 似 。 线 性 单元 和 整流 线性 
单元 的 唯一 区 别 在 于 整流 线性 单元 在 其 一 半 的 定义 域 上 输出 为 零 。 这 使 得 只 要 整流 
线性 单元 处 于 激活 状态 ， 它 的 导数 都 能 保持 较 大 。 它 的 梯度 不 仅 大 而 且 一 致 。 整 流 
操作 的 二 阶 导数 几乎 处 处 为 0, 并 且 在 整流 线性 单元 处 于 激活 状态 时 ， 它 的 一 阶 导 数 
处 处 为 1。 这 意味 着 相 比 于 引入 二 阶 效应 的 激活 函数 来 说 ， 它 的 梯度 方向 对 于 学 习 来 
说 更 加 有 用 。 

整流 线性 单元 通常 作用 于 仿 射 变换 之 上 : 











整 
整 





h=g(W z+b). (6.36) 


当初 始 化 仿 射 变换 的 参数 时 ， 可 以 将 b 的 所 有 元 素 设置 成 一 个 小 的 正 值 ， 例 如 0.1。 
这 使 得 整流 线性 单元 很 可 能 初始 时 就 对 训练 集中 的 大 多 数 输 入 呈现 激活 状态 ， 并 且 
允许 导数 通过 。 

有 很 多 整流 线性 单元 的 扩展 存在 。 大 多 数 这 些 扩展 的 表现 比 得 上 整流 线性 单元 ， 
并 且 偶 尔 表 现 得 更 好 。 

整流 线性 单元 的 一 个 缺陷 是 它们 不 能 通过 基于 梯度 的 方法 学 习 那 些 使 它们 激活 
为 零 的 样本 。 整 流 线 性 单元 的 各 种 扩展 保证 了 它们 能 在 各 个 位 置 都 接收 到 梯度 。 

整流 线性 单元 的 三 个 扩展 基于 当 z < 0 时 使 用 一 个 非 零 的 斜率 a hi = 
g(z, a); = max(0, z;) + a; min(0, z;), AWA (absolute value rectification ) [Al 
定 ai = 一 1 来 得 到 g(z) = |z|。 它 用 于 图 像 中 的 对 象 识别 (Jarrett et al., 2009a), 其 中 
寻找 在 输入 照明 极 性 反 转 下 不 变 的 特征 是 有 意义 的 。 整 流 线 性 单元 的 其 他 扩展 比 这 
应 用 地 更 广泛 。 渗 漏 整流 线性 单元 (Leaky ReLU ) (Maas et al., 2013) a; 固定 成 
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一 个 类 似 0.01 的 小 值 ， 参 数 化 整流 线性 单元 (parametric ReLU ) 或 者 PReLU 将 
a; 作为 学 习 的 参数 (He et al., 2015)。 

maxout 单元 (maxout unit ) (Goodfellow et al., 2013a) 进一步 扩展 了 整流 线 
性 单元 。maxout 单元 将 z 划分 为 每 组 具有 个 值 的 组 ， 而 不 是 使 用 作用 于 每 个 元 
RIKZ g(z)。 每 个 maxout 单元 则 输出 每 组 中 的 最 大 元 素 : 

g(2)i = pa (6.37) 

这 里 GO 是 组 i 的 输入 索引 集 {(i 一 1)k 十 1,.….,ik}。 这 提供 了 一 种 方法 来 学 习 对 输 
入 2 空间 中 多 个 方向 响应 的 分 段 线性 函数 。 

maxout 单元 可 以 学 习 具 有 多 达 k 段 的 分 段 线性 的 凸 函 数 。maxonut 单元 因此 可 
以 视 为 学 习 激活 函数 本 身 而 不 仅仅 是 单元 之 间 的 关系 。 使 用 足够 大 的 上 ，maxonut 单 
元 可 以 以 任意 的 精确 度 来 近似 任何 凸 函 数 。 特 别 地 ， 具 有 两 块 的 maxout 层 可 以 学 
习 实 现 和 传统 层 相 同 的 输入 z 的 函数 ， 这 些 传统 层 可 以 使 用 整流 线性 激活 函数 、 绝 
对 值 整 流 、 渗 漏 整流 线性 单元 或 参数 化 整流 线性 单元 ， 或 者 可 以 学 习 实 现 与 这 些 都 
不 同 的 函数 。maxout 层 的 参数 化 当然 也 将 与 这 些 层 不 同 ， 所 以 即使 是 maxout 学 习 
去 实现 和 其 他 种 类 的 层 相同 的 z 的 函数 这 种 情况 下 ， 学 习 的 机 理 也 是 不 一 样 的 。 

每 个 maxout 单元 现在 由 个 权重 癌 量 来 参数 化 , 而 不 仅仅 是 一 个 ,所 以 maxout 
单元 通常 比 整流 线性 单元 需要 更 多 的 正则 化 。 如 果 训 练 集 很 大 并 且 每 个 单元 的 块 数 
保持 很 低 的 话 ， 它 们 可 以 在 没有 正则 化 的 情况 下 工作 得 不 错 (Cai et al., 2013)。 

maxout 单元 还 有 一 些 其 他 的 优点 。 在 某 些 情况 下 ， 要 求 更 少 的 参数 可 以 获得 一 
些 统计 和 计算 上 的 优点 。 具 体 来 说 ， 如 果 由 n 个 不 同 的 线性 过 滤 需 描述 的 特征 可 以 
在 不 损失 信息 的 情况 下 ， 用 每 一 组 个 特征 的 最 大 值 来 概括 的 话 ， 那 么 下 一 层 可 以 
获得 倍 更 少 的 权重 数 。 

因为 每 个 单元 由 多 个 过 滤器 驱动 ,maxont 单元 具有 一 些 宛 余 来 帮助 它们 抵抗 一 
种 被 称 为 灾难 遗忘 (catastrophic forgetting) 的 现象 ， 这 个 现象 是 说 神经 网 络 忘 记 
了 如 何 执行 它们 过 去 训练 的 任务 (Goodfellow et al., 2014a)。 

整流 线性 单元 和 它们 的 这 些 扩展 都 是 基于 一 个 原则 ， 那 就 是 如 果 它 们 的 行为 更 
接近 线性 ， 那 么 模型 更 容易 优化 。 使 用 线性 行为 更 容易 优化 的 一 般 性 原则 同样 也 适 
用 于 除 深度 线性 网 络 以 外 的 情景 。 循环 网 络 可 以 从 序列 中 学 习 并 产生 状态 和 输出 的 
序列 。 当 训练 它们 时 ， 需 要 通过 一 些 时 间 步 来 传播 信息 ， 当 其 中 包含 一 些 线性 计算 
(具有 大 小 接近 1 的 某 些 方向 导数 ) 时 ， 这 会 更 容易 。 作 为 性 能 最 好 的 循环 网 络 结构 
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之 一 ，LSTM 通过 求 和 在 时 间 上 传播 信息 ， 这 是 一 种 特别 直观 的 线性 激活 。 它 将 在 
第 10.10 节 中 进一步 讨论 。 


6.3.2 logistic sigmoid 与 双 曲 正切 函数 
在 引入 整流 线性 单元 之 前 ， 大 多 数 神经 网 络 使 用 logistic sigmoid 激活 函数 
g(z) = o(2) (6.38) 
或 者 是 双 曲 正切 激活 函数 
g(z) = tanh(z). (6.39) 
这 些 激活 函数 紧密 相关 ， 因 为 tanh(z) = 20(2z) — 1. 

我 们 已 经 看 过 sigmoid 单元 作为 输出 单元 用 来 预测 二 值 型 变量 取 值 为 1 的 概率 。 
与 分 段 线性 单元 不 同 ，sigmoid 单元 在 其 大 部 分 定义 域内 都 饱和 一 一 当 > 取 绝 对 值 
很 大 的 正 值 时 ， 它 们 饱和 到 一 个 高 值 ， 当 z 取 绝 对 值 很 大 的 负 值 时 ， 它 们 饱和 到 一 
个 低 值 ， 并 且 仅 仅 当 z 接近 0 时 它们 才 对 输入 强烈 敏感 。sigmoid 单元 的 广泛 饱和 
性 会 使 得 基于 梯度 的 学 习 变 得 非常 困难 。 因 为 这 个 原因 ,现在 不 鼓励 将 它们 用 作 前 
馈 网 络 中 的 隐藏 单元 。 当 使 用 一 个 合适 的 代价 函数 来 抵消 sigmoid 的 饱和 性 时 ， 它 
们 作为 输出 单元 可 以 与 基于 梯度 的 学 习 相 兼容 。 

当 必 须要 使 用 sigmoid 激活 函数 时 ， 双 曲 正切 激活 函数 通常 要 比 logistic sig- 
moid 函数 表现 更 好 。 在 tanh(0) = 0 而 o(0) = 的 意义 上 ， 它 更 像 是 单位 函数 。 
为 tanh 在 0 附近 与 单位 函数 类 似 ， 训 练 深层 神经 网 络 9g = w tanh(U" tanh(V' 2)) 
类 似 于 训练 一 个 线性 模型 9 = w UT V' zx， 只 要 网 络 的 激活 能 够 被 保持 地 很 小 。 这 
使 得 训练 tanh 网 络 更 加 容易 。 

sigmoid 激活 函数 在 除了 前 僻 网 络 以 外 的 情景 中 更 为 常见 。 循 环 网 络 、 许 多 概率 
模型 以 及 一 些 自 编 码 器 有 一 些 额 外 的 要 求 使 得 它们 不 能 使 用 分 段 线性 激活 函数 ， 并 
且 使 得 sigmoid 单元 更 具有 吸引 力 ， 尽 管 它 存在 饱和 性 的 问题 。 





6.3.3 ”其 他 隐藏 单元 


也 存在 许多 其 他 种 类 的 隐藏 单元 ,但 它们 并 不 常用 。 
一 般 来 说 ， 很 多 种 类 的 可 微 函 数 都 表现 得 很 好 。 许 多 未 发 布 的 激活 函数 与 流行 
的 激活 函数 表现 得 一 样 好 。 为 了 提供 一 个 具体 的 例子 ， 作 者 在 MNIST 数据 集 上 使 
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用 h= cos( Wz + b) 测试 了 一 个 前 馈 网 络 ， 并 获得 了 小 于 1% 的 误差 率 ， 这 可 以 与 
更 为 传统 的 激活 孔 数 获得 的 结果 相 媲 美 。 在 新 技术 的 研究 和 开发 期 间 ， 通 常会 测试 
许多 不 同 的 激活 函数 ， 并 且 会 发 现 许多 标准 方法 的 变 体 表 现 非 常 好 。 这 意味 着 ， 通 
常 新 的 隐藏 单元 类 型 只 有 在 被 明确 证 明 能 够 提供 显著 改进 时 才 会 被 发 布 。 新 的 隐藏 
单元 类 型 如 果 与 已 有 的 隐藏 单元 表现 大 致 相当 的 话 ， 那 么 它们 是 非常 常见 的 ， 不 会 
引起 别人 的 兴趣 。 

列 出 文献 中 出 现 的 所 有 隐藏 单元 类 型 是 不 切实 际 的 。 我 们 只 对 一 些 特别 有 用 和 
独特 的 类 型 进行 强调 。 

其 中 一 种 是 完全 没有 激活 函数 g(z)。 也 可 以 认为 这 是 使 用 单位 函数 作为 激活 函 
数 的 情况 。 我 们 已 经 看 过 线性 单元 可 以 用 作 神 经 网 络 的 输出 。 它 也 可 以 用 作 隐 藏 单 
元 。 如 果 神 经 网 络 的 每 一 层 都 仅 由 线性 变换 组 成 ， 那么 网 络 作为 一 个 整体 也 将 是 线 
性 的 。 然 而 ， 神 经 网 络 的 一 些 层 是 纯 线 性 也 是 可 以 接受 的 。 考 虑 具有 n 个 输入 和 pp 
个 输出 的 神经 网 络 层 h = g(W' zx 十 5)。 我 们 可 以 用 两 层 来 代 百 它 ， 一 层 使 用 权重 矩 
E UV， 另 一 层 使 用 权重 和 矩阵 V。 如 果 第 一 层 没有 激活 函数 ， 那 么 我 们 对 基于 WW 的 
原始 层 的 权重 和 矩阵 进行 因 式 分 解 。 分 解 方 法 是 计算 h= g(V' U z+ b) WR U F 
ET a Mih, IMA UMV ENEE (n+ p 个 参数 ， 而 WEA np 个 参数 。 
如 果 q 很 小 ， 这 可 以 在 很 大 程度 上 节省 参数 。 这 是 以 将 线性 变换 约束 为 低 秩 的 代价 
来 实现 的 ， 但 这 些 低 秩 关系 往往 是 足够 的 。 线 性 隐藏 单元 因此 提供 了 一 种 减少 网 络 
中 参数 数量 的 有 效 方法 。 

softmax 单元 是 另外 一 种 经 常用 作 输 出 的 单元 ( 如 第 6.2.2.3 节 中 所 描述 的 ), 但 
有 时 也 可 以 用 作 隐 藏 单元 。softmax 单元 很 自然 地 表示 具有 个 可 能 值 的 离散 型 随 
机 变量 的 概率 分 布 ， 所 以 它们 可 以 用 作 一 种 开关 。 这 些 类 型 的 隐藏 单元 通常 仅 用 于 
明确 地 学 习 操作 内 存 的 高 级 结构 中 ， 将 在 第 10.12 节 中 描述 。 

其 他 一 些 常见 的 隐藏 单元 类 型 包括 : 




















。 径 向 基 函 数 radial basis function, RBF ): h; = exp (一 十 上 | W. 一 zo)。 这 个 
函数 在 z 接近 模板 We, 时 更 加 活跃 。 因 为 它 对 大 部 分 z 都 饱和 到 0， 因 此 很 
难 优化 。 

e softplus 了 水 数 : g(a) = C(a) = log(1 + e*)。 这 是 整流 线性 单元 的 平滑 版 本 ， 
由 Dugas et al. (2001b) 引入 用 于 函数 近似 ， 由 Nair and Hinton (2010a) 引入 
用 于 无 向 概率 模型 的 条 件 分 布 。Glorot et al. (2011a) 比较 了 softplus 和 整流 线 
性 单元 ,发 现 后 者 的 结果 更 好 。 通 常 不 鼓励 使 用 softplus 函数 。softplus 表明 隐 
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藏 单元 类 型 的 性 能 可 能 是 非常 反 直 觉 的 一 一 因为 它 处 处 可 导 或 者 因为 它 不 完全 
饱和 ， 人 们 可 能 希望 它 具 有 优 于 整流 线性 单元 的 点 ， 但 根据 经 验 来 看 ， 它 并 没 
有 。 

。 硬 双 曲 正切 函数 (hard tanh ): 它 的 形状 和 tanh 以 及 整流 线性 单元 类 似 , 但 是 
不 同 于 后 者 ， 它 是 有 界 的 ，g(a) = max(—1,min(1,a)). EF Collobert (2004) 
引入 。 


可 





隐藏 单元 的 设计 仍然 是 一 个 活跃 的 研究 领域 , 许多 有 用 的 隐藏 单元 类 型 仍 有 待 
发 现 。 


6.4 ”架构 设计 


神经 网 络 设计 的 另 一 个 关键 点 是 确定 它 的 架构 。 架构 ( architecture ) 一 词 是 指 
网 络 的 整体 结构 : 它 应 该 具有 多 少 单元 ， 以 及 这 些 单 元 应 该 如 何 连接 。 

大 多 数 神经 网 络 被 组 织 成 称 为 层 的 单元 组 。 大 多 数 神经 网 络 架 构 将 这 些 层 布置 
成 链 式 结构 ， 其 中 每 一 层 都 是 前 一 层 的 函数 。 在 这 种 结构 中 ， 第 一 层 由 下 式 给 出 : 

hO = gO (WT a+ bo); (6.40) 
第 二 层 由 
per ge (WPT A +o”) ; (6.41) 
给 出 ， 以 此 类 推 。 

在 这 些 链 式 架 构 中 ， 主 要 的 架构 考虑 是 选择 网 络 的 深度 和 每 一 层 的 宽度 。 我 们 
将 会 看 到 ， 即 使 只 有 一 个 隐藏 层 的 网 络 也 足够 适应 训练 集 。 更 深层 的 网 络 通常 能 够 
对 每 一 层 使 用 更 少 的 单元 数 和 更 少 的 参数 ， 并 且 经 党 容易 泛 化 到 测试 集 ， 但 是 通常 
也 更 难以 优化 。 对 于 一 个 具体 的 任务 ， 理 想 的 网 络 架构 必须 通过 实验 ， 观 测 在 验证 
集 上 的 误差 来 找到 。 





6.4.1 ”万 能 近似 性 质 和 深度 


线性 模型 ,通过 矩阵 乘法 将 特征 映射 到 输出 ,顾名思义 ， 仪 能 表示 线性 函数 。 它 
有 具 有 易于 训练 的 优点 , 因为 当 使 用 线性 模型 时 , 许多 损失 函数 会 时 出 凸 优 化 问题 。 不 
滁 的 是 ， 我 们 经 常 希望 我 们 的 系统 学 习 非 线性 函数 。 
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乍 一 看 ， 我 们 可 能 认为 学 习 非 线性 函数 需要 为 我 们 想 要 学 习 的 那 种 非 线性 专 
门 设计 一 类 模型 族 。 幸 运 的 是 ， 具 有 隐藏 层 的 前 馈 网 络 提供 了 一 种 万 能 近似 框架 。 
具体 来 说 ， 万 能 近似 定理 (universal approximation theorem ) (Hornik et al., 1989; 
Cybenko, 1989) 表明 ， 一 个 前 馈 神经 网 络 如 果 有 具有 线性 输出 层 和 至 少 一 层 具 有 任何 
一 种 “ 挤 压 ”性 质 的 激活 函数 (例如 logistic sigmoid 激 活 函 数 ) 的 隐藏 层 ， 只 要 给 予 
网 络 足够 数量 的 隐藏 单元 ， 它 可 以 以 任意 的 精度 来 近似 任何 从 一 个 有 限 维 空间 到 另 
一 个 有 限 维 空间 的 Borel 可 测 函数 。 前 馈 网 络 的 导数 也 可 以 任意 好 地 来 近似 函数 的 
导数 (Hornik et al., 1990)。Borel 可 测 的 概念 超出 了 本 书 的 范畴 ; 对 于 我 们 想 要 实 
现 的 目标 ， 只 需要 知道 定义 在 R 的 有 界 闭 集 上 的 任意 连续 函数 是 Borel 可 测 的 ， 
因此 可 以 用 神经 网 络 来 近似 。 神 经 网 络 也 可 以 近似 从 任何 有 限 维 离散 空间 映射 到 男 
一 个 的 任意 函数 。 虽 然 原 始 定 理 最 初 以 具有 特殊 激活 函数 的 单元 的 形式 来 描述 ， 这 
个 激活 函数 当 变 量 取 绝对 值 非常 大 的 正 值 和 负 什 时 都 会 饱和 ， 万 能 近似 定理 也 已 经 
被 证 明 对 于 更 广泛 类 别 的 激活 函数 也 是 适用 的 ， 其 中 就 包括 现在 常用 的 整流 线性 单 
元 (Leshno et al., 1993). 

万 能 近似 定理 意味 着 无 论 我 们 试图 学 习 什 么 函数 ， 我 们 知道 一 个 大 的 MLP 一 
定 能 够 表示 这 个 国 数 。 然 而 ， 我 们 不 能 保证 训练 算法 能 够 学 得 这 个 函数 。 即 使 MLP 
能 够 表示 该 函数 ， 学 习 也 可 能 因 两 个 不 同 的 原因 而 失败 。 首 先 ， 用 于 训练 的 优化 算 
法 可 能 找 不 到 用 于 期 望 函 数 的 参数 值 。 其 次 ， 训 练 算法 可 能 由 于 过 拟 合 而 选择 了 错 
误 的 函数 。 回 忆 第 5.2.1 市 中 的 “没有 免费 的 午餐 ”定理 ,说 明了 没有 普遍 优越 的 机 
器 学 习 算 法 。 前 馈 网 络 提供 了 表示 函数 的 万 能 系统 ， 在 这 种 意义 上 ， 给 定 一 个 函数 ， 
存在 一 个 前 馈 网 络 能 够 近似 该 函数 。 不 存在 万 能 的 过 程 既 能 够 验证 训练 集 上 的 特殊 
样本 ， 又 能 够 选择 一 个 函数 来 扩展 到 训练 集 上 没有 的 点 。 

万 能 近似 定理 说 明了 ， 存 在 一 个 足够 大 的 网 络 能 够 达到 我 们 所 希望 的 任意 精度 ， 
但 是 定理 并 没有 说 这 个 网 络 有 多 大 。Barron (1993) 提供 了 单 层 网 络 近 似 一 大 类 函数 
所 需 大 小 的 一 些 界 。 不 幸 的 是 , 在 最 坏 情况 下 ,可 能 需要 指数 数量 的 隐藏 单元 ( 可 能 
一 个 隐藏 单元 对 应 着 一 个 需要 区 分 的 输入 配置 )。 这 在 二 进 制 情 况 下 很 容易 看 到 : 向 
量 ve {0,1}” 上 的 可 能 的 二 进 制 函 数 的 数量 是 2 ， 并 且 选 择 一 个 这 样 的 函数 需要 
2” 位 ， 这 通常 需要 O(2") WA FARE. 

AZ, 具有 单 层 的 前 馈 网 络 足 以 表示 任何 函数 ， 但 是 网 络 层 可 能 大 得 不 可 实现 ， 
并 且 可 能 无 法 正确 地 学 习 和 泛 化 。 在 很 多 情况 下 ， 使 用 更 深 的 模型 能 够 减少 表示 期 
望 函 数 所 需 的 单元 的 数量 ， 并 且 可 以 减少 泛 化 误差 。 

存在 一 些 函数 族 能 够 在 网 络 的 次 度 大 于 某 个 值 d 时 被 高 效 地 近似 ， 而 当 深 度 被 
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限制 到 小 于 或 等 于 d 时 需要 人 在 很 多 情况 下 ， 浅 层 模 型 所 
需 的 隐藏 单元 的 数量 是 n 的 指数 级 。 这 个 结果 最 初 被 证 明 是 在 那些 不 与 pen 
神经 网 络 类 似 的 机 器 学 习 模型 中 出 现 ， 但 现在 已 经 扩展 到 了 这 些 模 型 。 个 结果 
是 关于 逻辑 门 电路 的 (Hastad, 1986). a 
重 的 线性 阔 值 单元 (Hastad and Goldmann, 1991; Hajnal et al., 1993)， 然 后 扩展 到 
ee a (Maass, 1992; Maass et al., 1994)。 许 多 现代 神经 网 络 使 
整流 线性 单元 。Leshno et al. (1993) 证 明 带 有 一 大 类 非 多 项 式 激活 函数 族 的 浅 层 
A 包括 整流 线性 单元 ， 具 有 万 能 的 近似 性 质 ， 但 是 这 些 结果 并 没有 强调 深度 或 
效率 的 问题 一 一 它们 仅 指出 足够 宽 的 整流 网 络 能 够 表示 任意 果 数 。Montufar et al. 
(2014) 指出 一 些 用 深度 整流 网 络 表示 的 函数 可 能 需要 浅 层 网 络 (一 个 隐藏 层 ) 指数 
级 的 隐藏 单元 才能 表示 。 更 确切 的 说 ， 他 们 说 明 分 段 线性 网 络 〈 可 以 通过 整流 非 线 
性 或 maxout 单元 获得 ) 可 以 表示 区 域 的 数量 是 网 络 深度 的 指数 级 的 函数 。 图 6.5 解 
释 了 带 有 绝对 值 整流 的 网 络 是 如 何 创 建 函 数 的 镜像 图 像 的 ， 这 些 函 数 在 某 些 隐藏 单 
元 的 顶部 计算 ， 作 用 于 隐藏 单元 的 输入 。 每 个 隐藏 单元 指定 在 哪里 折 生 输入 空间 , 来 
创造 镜像 响应 ( 在 绝对 值 非 线性 的 两 侧 )。 通 过 组 合 这 些 折 县 操作 ， 我 们 获得 指数 级 
的 分 段 线性 区 域 ， 他 们 可 以 概括 所 有 种 类 的 规则 模式 〈 例 如 ， 重复 )。 

















图 6.5: 关于 更 深 的 整流 网 络 具 有 指数 优势 的 一 个 直观 的 几何 解释 ,来 自 Montufar et al. (2014). 
( 左 ) 绝 对 值 整流 单元 对 其 输入 中 的 每 对 镜像 点 有 相同 的 输出 。 镜 像 的 对 称 轴 由 单元 的 权重 和 偏 置 
定义 的 超 平面 给 出 。 在 该 单元 项 部 计算 的 函数 (绿色 决策 面 ) 将 是 横 跨 该 对 称 轴 的 更 简单 模式 的 

一 个 镜像 。( 中 ) 该 函数 可 以 通过 折 炙 对 称 轴 周 围 的 空间 来 得 到 。( 右 ) 另 一 个 重复 模式 可 以 在 第 一 
个 的 顶部 折 县 (由 另 一 个 下 游 单元 ) 以 获得 另外 的 对 称 性 〈 现在 重复 四 次 ,使 用 了 两 个 隐藏 层 )。 
经 Montufar et al. (2014) 许可 改编 此 图 。 















































Montufar et al. (2014) 的 主要 定理 指出 ， 具 有 d 个 输入 、 深 度 为 1、 每 个 隐藏 
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层 具 有 个 单元 的 深度 整流 网 络 可 以 描述 的 线性 区 域 的 数量 是 


co 人 (人 中 (6.42) 


意味 着 ， 这 是 深度 | 的 指数 级 。 在 每 个 单元 具有 个 过 滤器 的 maxout 网 络 中 ， 线 
性 区 域 的 数量 是 
O (kVt), (6.43) 


当然 ， 我 们 不 能 保证 在 机 器 学 习 《〈 特 别 是 AI ) 的 应 用 中 我 们 想 要 学 得 的 函数 类 
型 享有 这 样 的 属性 。 

我 们 还 可 能 出 于 统计 原因 来 选择 深度 模型 。 任 何 时 候 , 当 我 们 选择 一 个 特定 的 机 
器 学 习 算 法 时 , 我 们 隐 含 地 陈述 了 一 些 先 验 , 这 些 先 验 是 关于 算法 应 该 学 得 什么 样 的 
函数 的 。 选 择 深 度 模 型 默许 了 一 个 非常 普遍 的 信念 , 那 就 是 我 们 想 要 学 得 的 函数 应 该 
涉及 几 个 更 加 简单 的 函数 的 组 合 。 这 可 以 从 表示 学 习 的 观点 来 解释 , 我 们 相信 学 习 的 
问题 包含 发 现 一 组 潜在 的 变 差 因素 ， 它 们 可 以 根据 其 他 更 简单 的 潜在 的 变 差 因素 来 
描述 。 或者, 我 们 可 以 将 深度 结构 的 使 用 解释 为 男 一 种 信念 ,， 那 就 是 我 们 想 要 学 得 的 
函数 是 包含 多 个 步骤 的 计算 机 程序 ， 其 中 每 个 步 又 使 用 前 一 步骤 的 输出 。 这 些 中 间 
输出 不 一 定 是 变 差 因素 ， 而 是 可 以 类 似 于 网 络 用 来 组 织 其 内 部 处 理 的 计数 器 或 指针 。 
根据 经 验 ， 更 深 的 模型 似乎 确实 在 广泛 的 任务 中 泛 化 得 更 好 (Bengio et al., 2007b; 
Erhan et al., 2009; Bengio, 2009; Mesnil et al., 2011; Ciresan et al., 2012; Krizhevsky 
et al., 2012a; Sermanet et al., 2013; Farabet et al., 2013; Couprie et al., 2013; Kahou 
et al., 2013; Goodfellow et al., 2014d; Szegedy et al., 2014a)。 图 6.6 和 图 6.7 展 示 了 
一 些 实验 结果 的 例子 。 这 表明 使 用 深层 架构 确实 在 模型 学 习 的 函数 空间 上 表示 了 一 
个 有 用 的 先 验 。 























6.4.2 ”其 他 架构 上 的 考虑 
目前 为 止 ， 我 们 都 将 神经 网 络 描 述 成 层 的 简单 链 式 结构 ， 主 要 的 考虑 因素 是 网 
络 的 深度 和 每 层 的 宽度 。 在 实践 中 ， 神 经 网 络 显 示 出 相当 的 多 样 性 。 


许多 神经 网 络 架 构 已 经 被 开发 用 于 特定 的 任务 。 用 于 计算 机 视觉 的 卷 积 神经 网 
络 的 特殊 架构 将 在 第 九 章 中 介绍 。 前 馈 网 络 也 可 以 推广 到 用 于 序列 处 理 的 循环 神经 
网 络 ， 但 有 它们 自己 的 架构 考虑 ， 将 在 第 十 章 中 介绍 。 
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图 6.6: 深度 的 影响 。 实 验 结果 表明 ， 当 从 地 址 照片 转录 多 位 数字 时 ， 更 深层 的 网 络 能 够 更 好 地 泛 
化 。 数据 来 自 Goodfellow et al. (2014d)。 测试 集 上 的 准确 率 随 着 深度 的 增加 而 不 断 增 加 。 图 6.7 给 
出 了 一 个 对 照 实 验 ， 它 说 明了 对 模型 尺寸 其 他 方面 的 增加 并 不 能 产生 相同 的 效果 。 
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图 6.7: 参数 数量 的 影响 。 更 深 的 模型 往往 表现 更 好 。 这 不 仅仅 是 因为 模型 更 大 。Goodfellow et al. 
(2014d) 的 这 项 实验 表明 ， 增 加 卷 积 网 络 层 中 参数 的 数量 ,但 是 不 增加 它们 的 深度 ， 在 提升 测试 集 
性 能 方面 几乎 没有 效果 ， 如 此 图 所 示 。 图 例 标明 了 用 于 画 出 每 条 曲线 的 网 络 深度 ， 以 及 曲线 表示 
的 是 卷 积 层 还 是 全 连接 层 的 大 小 变化 。 我 们 可 以 观察 到 ， 在 这 种 情况 下 ， 浅 层 模 型 在 参数 数量 达 
到 2000 万 时 就 过 拟 合 ， 而 深层 模型 在 参数 数量 超过 6000 万 时 仍然 表现 良好 。 这 表明 ， 使 用 深层 
模型 表达 出 了 对 模型 可 以 学 习 的 函数 空间 的 有 用 偏好 。 具 体 来 说 ， 它 表达 了 一 种 信念 ， 即 该 函数 
应 该 由 许多 更 简单 的 函数 复合 在 一 起 而 得 到 。 这 可 能 导致 学 习 由 更 简单 的 表示 所 组 成 的 表示 ( 例 
如 ， 由 边 所 定义 的 角 ) 或 者 学 习 具 有 顺序 依赖 步骤 的 程序 ( 例如 ， 首 先 定位 一 组 对 象 ， 然 后 分 割 它 
们 ， 之 后 识别 它们 )。 
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一 般 的 ， 层 不 需要 连接 在 链 中 ， 尽 管 这 是 最 常见 的 做 法 。 许 多 架构 构建 了 一 个 
主 链 ， 但 随后 又 添加 了 额外 的 架构 特性 ， 例 如 从 层 i 到 层 i 十 2 或 者 更 高 层 的 跳跃 连 
接 。 这 些 跳跃 连接 使 得 梯度 更 容易 从 输出 层 流 向 更 接近 输入 的 层 。 

架构 设计 考虑 的 男 外 一 个 关键 点 是 如 何 将 层 与 层 之 间 连 接 起 来 。 默 认 的 神经 网 
络 层 采用 和 矩阵 W 描述 的 线性 变换 ,每 个 输入 单元 连接 到 每 个 输出 单元 。 在 之 后 章节 
中 的 许多 专用 网 络 具 有 较 少 的 连接 ， 使 得 输入 层 中 的 每 个 单元 仅 连 接 到 输出 层 单元 
的 一 个 小 子 集 。 这 些 用 于 减少 连接 数量 的 策略 减少 了 参数 的 数量 以 及 用 于 评 佑 网络 
的 计算 量 , 但 通常 高 度 依赖 于 问题 。 例 如 ， 第 九 章 描 述 的 卷 积 神经 网 络 使 用 对 于 计 
算 机 视觉 问 题 非常 有 效 的 稀 琉 连接 的 专用 模式 。 在 这 一 章 中 ,， 很 难 对 通用 神经 网 络 
的 架构 给 出 更 多 具体 的 建议 。 我 们 在 随后 的 章节 中 介绍 一 些 特殊 的 架构 策略 ， 可 以 
在 不 同 的 领域 工作 良好 。 











6.5 ” 反 向 传播 和 其 他 的 微分 算法 


当 我 们 使 用 前 馈 神 经 网 络 接收 输入 z 并 产生 输出 和 时 ,信息 通过 网 络 向 前 流 
动 。 输 入 z 提供 初始 信息 ， 然 后 传播 到 每 一 层 的 隐藏 单 元 ， 最 终 产生 输出 yo PK 
之 为 前 向 传播 (forward propagation )。 在 训练 过 程 中 ， 前 向 传播 可 以 持续 向 前 直 
到 它 产 生 一 个 标量 代价 函数 J(0)。 反 向 传播 (back propagation ) 算法 (Rumelhart 
et al., 1986c)， 经 党 简称 为 backprop ， 人 允许 来 自 代 价 函 数 的 信息 通过 网 络 向 后 流动 ， 
以 便 计 算 梯 度 。 

计算 梯度 的 解析 表达 式 是 很 直观 的 ， 但 是 数值 化 地 求解 这 样 的 表达 式 在 计算 上 
的 代价 可 能 很 大 。 反 向 传播 算法 使 用 简单 和 廉价 的 程序 来 实现 这 个 目标 。 

反 向 传播 这 个 术语 经 常 被 误解 为 用 于 多 层 神经 网 络 的 整个 学 习 算 法 。 实 际 上 ， 
反 向 传播 仅 指 用 于 计算 梯度 的 方法 ,而 男 一 种 算法 , 例如 随机 梯度 下 降 , 使 用 该 梯度 
来 进行 学 习 。 此 外 ， 反 向 传播 经 常 被 误解 为 仅 适 用 于 多 层 神 经 网 络 ， 但 是 原则 上 它 
可 以 计算 任何 函数 的 导数 (对 于 一 些 函 数 ， 正 确 的 响应 是 报告 函数 的 导数 是 未 定义 
的 )。 特 别 地 ， 我 们 会 描述 如 何 计算 一 个 任意 孔 数 f 的 梯度 Vif (a, y), HEP z 是 一 
组 变量 ,我 们 需要 它们 的 导数 ， 而 y 是 函数 的 男 外 一 组 输入 变量 ,但 我 们 并 不 需要 
它们 的 导数 。 在 学 习 算 法 中 ， 我 们 最 常 需要 的 梯度 是 代价 函数 关于 参数 的 梯度 ， 即 
Ve.J(6)。 许 多 机 器 学 习 任 务 需要 计算 其 他 导数 ， 来 作为 学 习 过 程 的 一 部 分 ， 或 者 用 
来 分 析 学 得 的 模型 。 反 向 传播 算法 也 适用 于 这 些 任务 ,不 局 限于 计算 代价 函数 关于 
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参数 的 梯度 。 通 过 在 网 络 中 传播 信息 来 计算 导数 的 想法 非常 普遍 ， 它 还 可 以 用 于 计 
算 诸 如 多 输出 函数 f 的 Jacobian 的 值 。 我们 这 里 描述 的 是 最 常用 的 情况 ， 其 中 f 
只 有 单个 输出 。 





6.5.1 ”计算 图 


目前 为 止 ， 我 们 已 经 用 相对 非 正式 的 图 形 语 言 讨论 了 神经 网 络 。 为 了 更 精确 地 
描述 反 向 传播 算法 ,使 用 更 精确 的 计算 图 (computational graph ) 语言 是 很 有 帮助 
的 。 

将 计算 形式 化 为 图 形 的 方法 有 很 多 。 

这 里 , 我 们 使 用 图 中 的 每 一 个 节点 来 表示 一 个 变量 。 变量 可 以 是 标量 、 向 量 、 算 
阵 、 张 量 、 或 者 甚至 是 另 一 类 型 的 变量 。 

为 了 形式 化 我 们 的 图 形 ， 我 们 还 需 引 入 操作 (operation ) 这 一 概念 。 操 作 是 指 
一 个 或 多 个 变量 的 简单 函数 。 我 们 的 图 形 语 言 伴随 着 一 组 被 允许 的 操作 。 我 们 可 以 
通过 将 多 个 操作 复合 在 一 起 来 描述 更 为 复杂 的 函数 。 

不 失 一 般 性 , 我 们 定义 一 个 操作 仪 返回 单个 输出 变量 。 这 并 没有 失去 一 般 性 , 是 
因为 输出 变量 可 以 有 多 个 条 目 ， 例 如 向 量 。 反 向 传播 的 软件 实现 通常 支持 具有 多 个 
输出 的 操作 ， 但 是 我 们 在 描述 中 避免 这 种 情况 ， 因 为 它 引 入 了 对 概念 理解 不 重要 的 
许多 额外 细节 。 

如 果 变 量 y 是 变量 z 通过 一 个 操作 计算 得 到 的 , 那么 我 们 画 一 条 从 x By 的 有 
回 边 。 我 们 有 时 用 操作 的 名 称 来 注释 输出 的 节点 ， 当 上 下 文 很 明确 时 ， 有 时 也 会 省 
略 这 个 标注 。 

计算 图 的 实例 可 以 参考 图 6.8 。 














6.5.2 MIRA PAPA 


微 积 分 中 的 链 式 法 则 〈 为 了 不 与 概率 中 的 链 式 法 则 相 混 应 ) 用 于 计算 复合 函数 
的 导数 。 反 向 传播 是 一 种 计算 链 式 法 则 的 算法 ， 使 用 高 效 的 特定 运算 顺序 。 
设 z 是 实数 ，f 和 g 是 从 实数 映射 到 实数 的 函数 。 假设 y = g(x) 并 且 z = 





wwaibbt.com DO000000 


do rr 350DFo 


6.5 反 向 传播 和 其 他 的 微分 算法 





图 6.8: 一 些 计 算 图 的 示例 。(a) 使 用 x 操作 计算 z = zy WE, (0) 用 于 逻辑 回归 预测 


alz w+ b) 的 图 。 一些 中 间 表 达 式 在 代数 表达 式 中 没有 名 称 ， 但 在 图 形 中 却 需 要 。 我 们 简单 


第 





多 只 实施 一 个 操作 ,但 是 对 变量 实施 多 个 操作 也 是 可 能 的 。 这 里 我 们 展示 一 个 计算 图 ， 它 对 线性 


回归 模型 的 权 各 























B i 个 这 样 的 变量 命名 为 u. (c) RER H = max{0, XW + b} 的 计算 图 ， 在 给 定 包含 小 批 
输入 数据 的 设计 矩阵 X 时 ， 它 计算 整流 线性 单元 激活 的 设计 和 矩 阵 H. (d) 示例 a-c 对 每 个 变量 

















f(g(7)) = f( 


E w 实施 多 个 操作 。 这 个 权重 不 仅 用 于 预测 了 ， 也 用 











y)。 那 么 链 式 法 则 是 说 


dz _ dz dy 
dx dydx 





于 权重 





EE 衰减 罚 项 AD, w? 。 


177 


y 
+ 


& 





X Il 


Hi 地 





p 


(6.44) 


我 们 可 以 将 这 种 标量 情况 进行 扩展 。 假设 ze R”, y ER”, g Æ R” 到 R” 的 
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映射 ，f 是 从 R” 到 及 的 映射 。 如 果 y= g(x) 并 且 z= f(y), ABA 





Oz Oz Oy; 
an 2 IATA (6.45) 
j 
使 用 向 量 记 法 ， 可 以 等 价 地 写成 
Oy T 
Vzz = (#2) Vaz (6.46) 


这 里 au Æ g 的 nxm 的 Jacobian 矩阵 。 

从 这 里 我 们 看 到 ， 变 量 z 的 梯度 可 以 通过 Jacobian FH hE SY 和 梯度 V z 相 乘 来 
得 到 。 反 向 传播 算法 由 图 中 每 一 个 这 样 的 Jacobian 梯度 的 乘积 操作 所 组 成 。 

通常 我 们 将 反 向 传播 算法 应 用 于 任意 维度 的 张 量 ， 而 不 仅仅 用 于 向 量 。 从 概念 
上 讲 ， 这 与 使 用 向 量 的 反 向 传播 完全 相同 。 唯 一 的 区 别 是 如 何 将 数字 排列 成 网 格 以 
形成 张 量 。 我 们 可 以 想象 ， 在 我 们 运行 反 向 传播 之 前 ， 将 每 个 张 量变 平 为 一 个 向 量 ， 
计算 一 个 向 量 值 梯度 ， 然 后 将 该 梯度 重新 构造 成 一 个 张 量 。 从 这 种 重新 排列 的 观点 
上 看 ， 反 向 传播 仍然 只 是 将 Jacobian 乘 以 梯度 。 

为 了 表示 值 z 关于 张 量 X 的 梯度 ， 我 们 记 为 Vxz， 就 像 X 是 向 量 一 样 。X 的 
索引 现在 有 多 个 坐标 一 一 例如 ， 一 个 3 维 的 张 量 由 三 个 坐标 索引 。 我 们 可 以 通过 
使 用 单个 变量 i 来 表示 完整 的 索引 元 组 ， 从 而 完全 抽象 出 来 。 对 所 有 可 能 的 元 组 i， 
(Vxz); 给 出 Seo 这 与 向 量 中 索引 的 方式 完全 一 致 ，(Va。z); 给 出 识 。 使 用 这 种 记 
法 ， 我 们 可 以 写 出 适用 于 张 量 的 链 式 法 则 。 如 果 Y = 9(X) FFA z = f(Y)， ABA 


a 
Vxz = ar (6.47) 
J 

















6.5.3 “递归 地 使 用 链 式 法 则 来 实现 反 向 传播 


使 用 链 式 规则 ,我 们 可 以 直接 写 出 某 个 标量 关于 计算 图 中 任何 产生 该 标量 的 节 
点 的 梯度 的 代数 表达 式 。 然 而 ， 实 际 在 计算 机 中 计算 该 表达 式 时 会 引入 一 些 额外 的 
考虑 。 

具体 来 说 ， 许 多 子 表达 式 可 能 在 梯度 的 整个 表达 式 中 重复 大 干 次。 任何 计算 梯 
度 的 程序 都 需要 选择 是 存储 这 些 子 表达 式 还 是 重新 计算 它们 几 次 。 图 6.9 给 出 了 一 个 
例子 来 说 明 这 些 重复 的 子 表 达 式 是 如 何 出 现 的 。 在 某 些 情况 下 ， 计 算 两 次 相同 的 子 
表达 式 纯 粹 是 浪费 。 在 复杂 图 中 ， 可 能 存在 指数 多 的 这 种 计算 上 的 浪费 ， 使 得 简单 
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的 链 式 法 则 不 可 实现 。 在 其 他 情况 下 ， 计 算 两 次 相同 的 子 表达 式 可 能 是 以 较 高 的 运 
行 时 间 为 代价 来 减少 内 存 开销 的 有 效 手 段 。 

我 们 首先 给 出 一 个 版 本 的 反 向 传播 算法 ， 它 指明 了 梯度 的 直接 计算 方式 ( 算 
法 6.2 以 及 相关 的 正 向 计算 的 算法 6.1 )， 按 照 它 实际 完成 的 顺序 并 且 递归 地 使 用 链 
式 法 则 。 我 们 可 以 直接 执行 这 些 计算 或 者 将 算法 的 描述 视 为 用 于 计算 反 向 传播 的 计 
算 图 的 符号 表示 。 然 而 ， 这 些 公 式 并 没有 明确 地 操作 和 构造 用 于 计算 梯度 的 符号 图 。 
这 些 公式 将 在 后 面 的 第 6.5.6 节 和 算法 6.5 中 给 出 ， 其 中 我 们 还 推广 到 了 包含 任意 张 
量 的 节点 。 

首先 考虑 描述 如 何 计算 单个 标量 u ( 例如 训练 样本 上 的 损失 函数 ) 的 计算 图 。 
我 们 想 要 计算 这 个 标量 对 ni 个 输入 节点 uO 到 uC) 的 梯度 。 换 句 话 说 ， 我 们 希望 
对 所 有 的 ie {1,2,...,ni} 计算 总 。 在 使 用 反 向 传播 计算 梯度 来 实现 参数 的 梯度 
FEER, u 将 对 应 单个 或 者 小 批量 实例 的 代价 函数 ， 而 中 Bu) 则 对 应 于 模型 
的 参数 。 

我 们 假设 图 的 节点 已 经 以 一 种 特殊 的 方式 被 排序 ， 使 得 我 们 可 以 一 个 接 一 个 地 
计算 他 们 的 输出 ， 从 uD 开始 ， 一 直上 升 到 wo。 如 算法 6.1 中 所 定义 的 ， 每 个 
节点 uO 与 操作 fO 相关 联 ， 并 且 通 过 对 以 下 函数 求 值 来 得 到 





u® = VA), (6.48) 





其 中 AO uO 所 有 父 节点 的 集合 。 

该 算法 详细 说 明了 前 向 传播 的 计算 ,我 们 可 以 将 其 放 入 图 9 中 。 为 了 执行 反 向 
传播 ， 我 们 可 以 构造 一 个 依赖 于 9 并 添加 额外 一 组 节点 的 计算 图 。 这 形成 了 一 个 子 
图 B， 它 的 每 个 节点 都 是 9 的 节点 。B 中 的 计算 和 9 中 的 计算 顺序 完全 相反 ， 而 且 
B 中 的 每 个 节点 计算 导数 %@ 与 前 向 图 中 的 节点 WO 相关 联 。 这 通过 对 标量 输出 
ul) 使 用 链 式 法 则 来 完成 : 





dul Iu) Ayu 
aT > Bul Du ow 
i:jEPa(u™) 





这 在 算法 6.2 中 详细 说 明 。 子 图 8 恰好 包含 每 一 条 对 应 着 9 中 从 节点 uO 到 节点 
uÒ WD. M uD 到 uO 的 边 对 应 着 计算 名 5。 另 外 ， 对 于 每 个 节点 都 要 执行 一 个 

只 ， 内 积 的 一 个 因子 是 对 于 wi 子 节 点 uO 的 已 经 计算 的 梯度 ， 另 一 个 因子 是 对 于 
相同 子 节点 uO 的 偏 导数 2 组 成 的 向 量 。 总 而 言 之 ,执行 反 向 传播 所 需 的 计算 量 
与 9 中 的 边 的 数量 成 比例 ， 其 中 每 条 边 的 计算 包括 计算 偏 导数 ( 节点 关于 它 的 一 个 
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算法 6.1 计算 将 mw 个 输入 u 到 ue) 映射 到 一 个 输出 wu 的 程序 。 这 定义 了 一 
个 计算 图 ， 其 中 每 个 节点 通过 将 函数 O 应 用 到 变量 集合 AO 上 来 计算 uO 的 值 ， 
AO 包含 先前 节点 u® 的 值 满足 j < i Hj © Pa(u 中 )。 计 算 图 的 输入 是 向 量 g, 并 
且 被 分 配给 前 wi 个 节点 uO 到 wl" 。 计 算 图 的 输出 可 以 从 最 后 一 个 (输出 ) 节点 
u™ 读 出 。 

fori=1,...,n; do 








UD & a; 
end for 
fori=n;+1,...,n do 
AM & {uM | j € Pa(u)} 
u & fO(A®) 
end for 


return u™ 








父 节 点 的 偏 导 数 ) 以 及 执行 一 次 乘法 和 一 次 加 法 。 下 面 ， 我 们 将 此 分 析 推 广 到 张 量 
值 节点 ， 这 只 是 在 同一 节点 中 对 多 个 标量 值 进行 分 组 并 能 够 更 高 效 地 实现 。 

反 向 传播 算法 被 设计 为 减少 公共 子 表 达 式 的 数量 而 不 考虑 存储 的 开销 。 具 体 来 
说 , 它 大 约 对 图 中 的 每 个 节点 执行 一 个 Jacobian 乘积 。 这 可 以 从 算法 6.2 中 看 出 , 反 
向 传播 算法 访问 了 图 中 的 节点 wD 到 节点 uO 的 每 条 边 一 次 ， 以 获得 相关 的 偏 导数 
9u 。 反 向 传播 因此 避免 了 重复 子 表达 式 的 指数 爆炸 。 然 而 ， 其 他 算法 可 能 通过 对 
计算 图 进行 简化 来 避免 更 多 的 子 表达 式 ， 或 者 也 可 能 通过 重新 计算 而 不 是 存储 这 些 
子 表达 式 来 节省 内 存 。 我 们 将 在 描述 完 反 向 传播 算法 本 身后 再 重新 审视 这 些 想 法 。 
































6.5.4 全 连接 MLP 中 的 反 向 传播 计算 

为 了 阐明 反 向 传播 的 上 述 定义 ， 让 我 们 考虑 一 个 与 全 连接 的 多 层 MLP 相关 联 
的 特定 图 。 

算法 6.3 首 先 给 出 了 前 向 传播 ， 它 将 参数 映射 到 与 单个 训练 样本 ( 输入， 目标 ) 
(x, y) 相关 联 的 监督 损失 函数 L(y, y), FE yE z 提供 输入 时 神经 网 络 的 输出 。 

算法 6.4 随 后 说 明了 将 反 向 传播 应 用 于 改 图 所 和 需 的 相关 计算 。 

算法 6.3 和 算法 6.4 是 简单 而 直观 的 演示 。 然 而 ， 它 们 专门 针对 特定 的 问题 。 
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图 6.9: 计算 梯度 时 导致 重复 子 表达 式 的 计算 图 。 令 we€ R 为 图 的 输入 。 我 们 对 链 中 的 每 一 步 使 
用 相同 的 操作 函数 ff: ROR, 这 样 x = f(w),y = f(x),z = f(yv)。 为 了 计算 oz 我 们 应 用 
式 (6.44) 得 到 : 











Oz 

aa (6.50) 
_ Oz Oy Ox 
= eon (6.51) 
=f (Vf (x)f (w) (6.52) 
=F (FEF (Fw)) fF (w). (6.53) 











R (6.52) 建议 我 们 采用 的 实现 方式 是 ， 仅 计算 fo) 的 值 一 次 并 将 它 存储 在 变量 z 中 。 这 是 反 
向 传播 算法 所 采用 的 方法 。 式 (6.53) 提出 了 一 种 替代 方法 ， 其 中 子 表达 式 f(w) 出 现 了 不 止 一 
次 。 在 替代 方法 审 ， 每 次 只 在 需要 时 重新 计算 f(w)。 当 存储 这 些 表达 式 的 值 所 需 的 存储 较 少 时 ， 
式 (6.52) 的 反 向 传播 方法 显然 是 较 优 的 ， 因 为 它 减少 了 运行 时 间 。 然 而 ， 式 (6.53) 也 是 链 式 法 则 的 
有 效 实现 ， 并 且 当 存储 受 限时 它 是 有 用 的 。 












































出 






































现在 的 软件 实现 基于 之 后 第 6.5.6 节 中 描述 的 一 般 形式 的 反 向 传播 ， 它 可 以 通过 
显 式 地 操作 表示 符号 计算 的 数据 结构 ,来 适应 任何 计算 图 。 


6.5.5 ”符号 到 符号 的 导数 


代数 表达 式 和 计算 图 都 对 符号 (symbol ) 或 不 具有 特定 值 的 变量 进行 操作 。 这 
些 代 数 或 者 基于 图 的 表达 式 被 称 为 符号 表示 ( symbolic representation )。 当 我 们 实 
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算法 6.2 反 向 传播 算法 的 简化 版 本 ， 用 于 计算 wu 关于 图 中 变量 的 导数 。 这 个 示 
例 旨 在 通过 演示 所 有 变量 都 是 标量 的 简化 情况 来 进一步 理解 反 向 传播 算法 ， 这 里 我 
们 希望 计算 关于 ual) 的 导数 。 这 个 简化 版 本 计算 了 关于 图 中 所 有 节点 的 导 
数 。 假 定 与 每 条 边 相 关联 的 偏 导数 计算 需要 恒定 的 时 间 的 话 ， 该 算法 的 计算 成 本 与 
图 中 边 的 数量 成 比例 。 这 与 前 向 传播 的 计算 次 数 具 有 相同 的 阶 。 每 个 OHO uO 的 
父 节点 uO 的 函数 ， 从 而 将 前 向 图 的 节点 链接 到 反 向 传播 图 中 添加 的 节点 。 

运行 前 向 传播 (对 于 此 例 是 算法 6.1) 获得 网 络 的 激活 。 

初始 化 grad_table， 用 于 存储 计算 好 的 导数 的 数据 结构 。grad_table[wG] 将 存 
储 a? 计算 好 的 值 。 


grad_table[u(”] + 1 

















for j = n — 1 down to 1 do 
ja ; 、 u) u au® 
下 一 行使 用 存储 的 值 计算 名 I payin) SU OU 


grad_table[u)] — Dije Pau) grad_table[u®] 5 








end for 


return {grad_table[u] |i = 1,..., ni} 





际 使 用 或 者 训练 神经 网 络 时 ， 我 们 必须 给 这 些 符 号 赋 特 定 的 值 。 我 们 用 一 个 特定 
的 数值 (numeric value) KARMA SHA zx， 例如 [1.2,3, 765,—-1.8]". 

一 些 反 向 传播 的 方法 采用 计算 图 和 一 组 用 于 图 的 输入 的 数值 ， 然 后 返回 在 这 些 
输入 值 处 梯度 的 一 组 数值 。 我 们 将 这 种 方法 称 为 符号 到 数值 的 微分 。 这 种 方法 用 在 
诸如 Torch (Collobert et al., 2011b) 和 Caffe (Jia, 2013) 之 类 的 库 中 。 

男 一 种 方法 是 采用 计算 图 以 及 添加 一 些 额外 的 节点 到 计算 图 中 ， 这 些 额 外 的 节 
点 提供 了 我 们 所 需 导 数 的 符号 描述 。 这 是 Theano (Bergstra et al., 2010b; Bastien 
et al., 2012b) 和 TensorFlow (Abadi et al., 2015) 所 采用 的 方法 。 图 6.10 给 出 了 该 方 
法 如 何 工作 的 一 个 例子 。 这 种 方法 的 主要 优点 是 导数 可 以 使 用 与 原始 表达 式 相 同 的 
语言 来 描述 。 因 为 导数 只 是 另外 一 张 计算 图 ， 我 们 可 以 再 次 运行 反 向 传播 ， 对 导数 
再 进行 求 导 就 能 得 到 更 高 阶 的 导数 。 高 阶 导 数 的 计算 在 第 6.5.10 节 中 描述 。 

我 们 将 使 用 后 一 种 方法 ， 并 且 使 用 构造 导数 的 计算 图 的 方法 来 描述 反 向 传播 算 
法 。 图 的 任意 子 集 之 后 都 可 以 使 用 特定 的 数值 来 求 值 。 这 允许 我 们 避免 精确 地 指明 
每 个 操作 应 该 在 何 时 计算 。 相 反 ， 通 用 的 图 计算 引擎 只 要 当 一 个 节点 的 父 节 点 的 值 
都 可 用 时 就 可 以 进行 求 值 。 
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算法 6.3 典型 深度 神经 网 络 中 的 前 向 传播 和 代价 函数 的 计算 。 损 失 函 数 L(G, y) 取 
决 于 输出 多 和 目标 y (参考 第 6.2.1.1 节 中 损失 函数 的 示例 )。 为 了 获得 总 代价 J, 
失 函 数 可 以 加 上 正则 项 2(9)， 其 中 9 包含 所 有 参数 (权重 和 偏 置 )。 算 法 6.4 说 明了 
如 何 计算 J 关于 参数 WW 和 5b 的 梯度 。 为 简单 起 见 ， 该 演示 仅 使 用 单个 输入 样本 z。 
实际 应 用 应 该 使 用 小 批量 。 请 参考 第 6.5.7 节 以 获得 更 加 真实 的 演示 。 
Require: 网 络 深度 ,1 
Require: W® i € {1,...,1}， 模型 的 权重 矩阵 
Require: b® i € {1,... ,人 中， 模型 的 偏 置 参 数 
Require: zx， 程序 的 输入 
Require: y, HERA ih 
AO =a 
for =1,...,1 do 
a = po) + Ww p&-Y 
h™ = f(a) 
end for 
y= AO 
J = L(y, y) + AQ(6) 











基于 符号 到 符号 的 方法 的 描述 包含 了 符号 到 数值 的 方法 。 符 号 到 数值 的 方法 可 
以 理解 为 执行 了 与 符号 到 符号 的 方法 中 构建 图 的 过 程 中 完全 相同 的 计算 。 关 键 的 区 
别 是 符号 到 数值 的 方法 不 会 显示 出 计算 图 。 





6.5.6 一般 化 的 反 向 传播 


反问 传播 算法 非常 简单 。 为 了 计算 某 个 标量 z 关于 图 中 它 的 一 个 祖先 z 的 梯 
度 ， 我 们 首先 观察 到 它 关 于 > 的 梯度 由 至 = 1 给 出 。 然 后 ,我 们 可 以 计算 对 图 中 > 
的 每 个 父 节 点 的 梯度 ， 通 过 现 有 的 梯度 乘 以 产生 z 的 操作 的 Jacobian。 我 们 继续 乘 
以 Jacobian， 以 这 种 方式 向 后 穿 过 图 ， 直 到 我 们 到 达 z。 对 于 从 z 出 发 可 以 经 过 两 
个 或 更 多 路 径 向 后 行进 而 到 达 的 任意 节点 ， 我 们 简单 地 对 该 节点 来 自 不 同 路 径 上 的 
梯度 进行 求 和 。 

更 正式 地 ， 图 9 中 的 每 个 节点 对 应 着 一 个 变量 。 为 了 实现 最 大 的 一 般 化 ， 我 们 
将 这 个 变量 描述 为 一 个 张 量 V。 张 量 通常 可 以 具有 任意 维度 ， 并 且 包 含 标量 、 向 量 
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算法 6.4 深度 神经 网 络 中 算法 6.3 的 反 向 计算 ， 它 不 止 使 用 了 输入 £ 和 目标 yo 该 
计算 对 于 每 一 层 k 都 产生 了 对 激活 ao 的 梯度 ， 从 输出 层 开始 向 后 计算 一 直到 第 一 
个 隐藏 层 。 这 些 梯度 可 以 看 作 是 对 每 层 的 输出 应 如 何 调整 以 减 小 误差 的 指导 ， 根 据 
这 些 梯 度 可 以 获得 对 每 层 参 数 的 梯度 。 权 重 和 偏 置 上 的 梯度 可 以 立即 用 作 随 机 梯度 
更 新 的 一 部 分 ( 梯度 算出 后 即 可 执行 更 新 )， 或 者 与 其 他 基于 梯度 的 优化 方法 一 起 使 
用 。 
在 前 向 计算 完成 后 ， 计 算 顶 层 的 梯度 : 
g = Val = VaL(ĝ, y) 
for k=l,l— 1,...,1 do 
将 关于 层 输出 的 梯度 转换 为 非 线 性 激活 输入 前 的 梯度 ( 如 果 f 是 逐 元 素 的 ， 则 
TUR MAHA ): 
9+ VawJ = gO f(a) 
计算 关于 权重 和 偏 置 的 梯度 〈 如果 需 要 的 话 ， 还 要 包括 正则 项 ): 
VioJ= g + AV pn (8) 
Vind = gh YT + XV gw (0) 
关于 下 一 更 低层 的 隐藏 层 传播 梯度 
B| Vp- = we g 


end for 
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图 6.10: 使 用 符号 到 符号 的 方法 计算 导数 的 示例 。 在 这 种 方法 中 , 反 向 传播 算法 不 需要 访问 任何 实 
际 的 特定 数值 。 相 反 ， 它 将 节点 添加 到 计算 图 中 来 描述 如 何 计算 这 些 导数 。 通 用 图 形 求 值 引擎 可 
以 在 随后 计算 任何 特定 数值 的 导数 。( 左 ) 在 这 个 例子 中 ， 我 们 从 表示 z = f(f(f(w))) 的 图 开始 。 
(A) 我 们 运行 反 向 传播 算法 ， 指 导 它 构造 表达 式 = 对 应 的 图 。 在 这 个 例子 中 ， 我 们 不 解释 反 向 
传播 算法 如 何 工作 。 我 们 的 目的 只 是 说 明 想 要 的 结果 是 什么 : 符号 描述 的 导数 的 计算 图 。 
















































































和 矩阵。 
我 们 假设 每 个 变量 V 与 下 列子 程序 相关 联 : 











e get_operation(V): 它 返回 用 于 计算 V 的 操作 ， 代 表 了 在 计算 图 中 流入 V 
的 边 a 例如 ， 可 能 有 一 个 Python 或 者 C++ 的 类 表示 和 矩阵 乘法 操作 ， 以 
及 get_operation 函数 。 假 设 我 们 的 一 个 变量 是 由 抢 阵 乘法 产生 的 ，C = AB. 
那么 ，get_operation(V) 返回 一 个 指向 相应 C++ 类 的 实例 的 指针 。 


e get_consumers(V,G): 它 返回 一 组 变量 ， 是 计算 图 9 中 V 的 子 节 点 。 








e get_inputs(V,9): 它 返 回 一 组 变量 ， 是 计算 图 9 中 V 的 父 节 点 。 


每 个 操作 op 也 与 bprop 操作 相关 联 。 该 bprop 操作 可 以 计算 如 式 (6.47) 所 描 
WAY Jacobian 向 量 积 。 这 是 反 向 传播 算法 能 够 实现 很 大 通用 性 的 原因 。 每 个 操作 负 
责 了 解 如 何 通过 它 参 与 的 图 中 的 边 来 反 向 传播 。 例 如 ， 我 们 可 以 使 用 矩阵 乘法 操作 
来 产生 变量 C= AB. 假设 标量 z 关于 C 的 梯度 是 G。 和 矩阵 乘法 操作 负责 定义 两 
个 反 向 传播 规则 ， 每 个 规则 对 应 于 一 个 输入 变量 。 如 果 我 们 调用 bprop 方法 来 请 求 
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关于 A 的 梯度 ， 那么 在 给 定 输出 的 梯度 为 G 的 情况 下 ， 和 矩阵 乘法 操作 的 bprop 方 
法 必须 说 明 关 于 A 的 梯度 是 GB 。 类 似 的 ， 如 果 我 们 调用 bprop 方法 来 请 求 关 
于 B 的 梯度 ， 那 么 矩阵 操作 负责 实现 bprop 方法 并 指定 希望 的 梯度 是 AG. KK 
传播 算法 本 身 并 不 需要 知道 任何 微分 法 则 。 它 只 需要 使 用 正确 的 参数 调用 每 个 操作 
的 bprop 方法 即 可 。 正 式 地 ， op.bprop(inputs, X, G) 必须 返回 


> (Vxop.£ (inputs);)G;, (6.54) 


这 只 是 如 式 (6.47) 所 表达 的 链 式 法 则 的 实现 。 这 里 ，inputs 是 提供 给 操作 的 一 组 输 
A, op.£ 是 操作 实现 的 数学 函数 ，X 是 输入 ， 我 们 想 要 计算 关于 它 的 梯度 ，G 是 操 
作对 于 输出 的 梯度 。 

op .bprop 方法 应 该 总 是 假装 它 的 所 有 输入 彼此 不 同 ， 即 使 它们 不 是 。 例 如 ， 如 
E mul 操作 传递 两 个 x 来 计算 x?， op .bprop 方法 应 该 仍然 返回 x 作为 对 于 两 个 输 
入 的 导数 。 反 向 传播 算法 后 面 会 将 这 些 变量 加 起 来 获得 Qa, RAE x 上 总 的 正确 的 导 
数 。 

反 向 传播 算法 的 软件 实现 通 稼 提供 操作 和 其 bprop 方法 ， 所 以 深度 学 习 软 件 库 
的 用 户 能 够 对 使 用 诸如 和 矩阵 乘法 、 指 数 运 算 、 对 数 运算 等 等 常用 操作 构建 的 图 进行 
反 向 传播 。 构建 反 向 传播 新 实现 的 软件 工程 师 或 者 需要 问 现 有 库 添加 自己 的 操作 的 
高 级 用 户 通常 必须 手动 为 新 操作 推导 op.bprop 方法 。 

反问 传播 算法 的 正式 描述 参考 算法 6.5 。 

在 第 6.5.2 节 中 ,我们 使 用 反 向 传播 作为 一 种 策略 来 避免 多 次 计算 链 式 法 则 中 的 
相同 子 表达 式 。 由 于 这 些 重复 子 表达 式 的 存在 ， 简 单 的 算法 可 能 具有 指数 运行 时 间 。 
现在 我 们 已 经 详细 说 明了 反问 传播 算法 ,我 们 可 以 去 理解 它 的 计算 成 本 。 如 果 我 们 
假设 每 个 操作 的 执行 都 有 大 致 相同 的 开销 ， 那 么 我 们 可 以 依据 执行 操作 的 数量 来 分 
析 计 算 成 本 。 注 意 这 里 我 们 将 一 个 操作 记 为 计算 图 的 基本 单位 ， 它 实际 可 能 包含 许 
多 算术 运算 ( 例如 ,我 们 可 能 将 矩阵 乘法 视 为 单个 操作 )。 在 具有 n 个 节点 的 图 中 计 
算 梯度 ， 将 永远 不 会 执行 超过 O(n?) 个 操作 ， 或 者 存储 超过 O(n?) 个 操作 的 输出 。 
这 里 我 们 是 对 计算 图 中 的 操作 进行 计数 ， 而 不 是 由 底层 硬件 执行 的 单独 操作 ， 所 以 
重要 的 是 要 记 住 每 个 操作 的 运行 时 间 可 能 是 高 度 可 变 的 。 例 如 ， 两 个 矩阵 相 乘 可 能 
对 应 着 图 中 的 一 个 单独 的 操作 ， 但 这 两 个 矩阵 可 能 每 个 都 包含 数 百 万 个 元 素 。 我 们 
可 以 看 到 ， 计算 梯 度 至 多 需要 O(n?) 的 操作 ， 因 为 在 最 坏 的 情况 下 ， 前 向 传播 的 步 
又 将 在 原始 图 的 全 部 n 个 节点 上 运行 (取决 于 我 们 想 要 计算 的 值 ， 我们 可 能 不 需要 
执行 整个 图 )。 反 向 传播 算法 在 原始 图 的 每 条 边 添加 一 个 Jacobian 向 量 积 ， 可 以 用 
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算法 6.5 反 向 传播 算法 最 外 围 的 骨架 。 这 部 分 做 简单 的 设置 和 清理 工作 。 大 多 数 重 
要 的 工作 发 生 在 算法 6.6 的 子 程序 build_grad 中 。 
Require: T， 需 要 计算 梯度 的 目标 变量 
Require: G, IKI 
Require: z， 要 微分 的 变量 

令 9' 为 9 剪 校 后 的 计算 图 ， 其 中 仅 包括 z 的 祖先 以 及 了 中 节点 的 后 代 。 

初始 化 grad_table， 它 是 关联 张 量 和 对 应 导数 的 数据 结构 。 

grad_table[z] + 1 

for V in T do 

build_grad(V,G,G’, grad_table) 


end for 





Return grad_table restricted to T 





O(1) 个 节点 来 表达 。 因 为 计算 图 是 有 问 无 环 图 ， 它 至 多 有 O(n?) 条 边 。 对 于 实践 中 
常用 图 的 类 型 ， 情 况 会 更 好 。 大 多 数 神经 网 络 的 代价 函数 大 致 是 链 式 结构 的 ， 使 得 
反 向 传播 只 有 O(n) 的 成 本 。 这 远 远 胜 过 简单 的 方法 ， 简 单方 法 可 能 需要 在 指数 级 
的 节点 上 运算 。 这 种 潜在 的 指数 级 代价 可 以 通过 非 递 归 地 扩展 和 重 写 递 归 链 式 法 则 
( 式 (6.49) ) 来 看 出 : 





t 


dul”) Out) 
du) "d a Ou(tr-1)° 
path(u(™1) u2) nault), k=2 
from 7=j to m4=n 


由 于 节点 j 到 节点 n 的 路 径 数目 可 以 关于 这 些 路 径 的 长 度 上 指数 地 增长 ， 所 以 上 述 
求 和 符号 中 的 项 数 (这 些 路 径 的 数目 )， 可 能 以 前 向 传播 图 的 深度 的 指数 级 增长 。 会 
产生 如 此 大 的 成 本 是 因为 对 于 2 ， 相 同 的 计算 会 重复 进行 很 多 次 。 为 了 避免 这 种 
重新 计算 , 我 们 可 以 将 反 向 传播 看 作 一 种 表 填 充 算法 ,利用 存储 的 中 间 结 果 e 来 
对 表 进 行 填充 。 图 中 的 每 个 节点 对 应 着 表 中 的 一 个 位 置 ， 这 个 位 置 存储 对 该 节点 的 
梯度 。 通 过 顺序 填充 这 些 表 的 条 目 ， 反 向 传播 算法 避免 了 重复 计算 许多 公共 子 表达 
式 。 这 种 表 填 充 策略 有 时 被 称 为 动态 规划 (dynamic programming ). 


(6.55) 














6.5.7 ”实例 : AF MLP 训练 的 反 向 传播 
作为 一 个 例子 ,我 们 利用 反 向 传播 算法 来 训练 多 层 感知 机 。 
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算法 6.6 反 向 传播 算法 的 内 循环 子 程序 build_grad(V,G,G',grad_table), H4 


法 6.5 中 定义 的 反 向 传播 算法 调用 。 





Require: V， 应 该 被 加 到 9 和 grad_table 的 变量 。 


Require: 9， 要 修改 的 图 。 


Require: 9'， 根 据 参与 梯度 的 节点 9 的 受 限 图 。 
Require: grad_table, 将 节点 映射 到 对 应 梯度 的 数据 结构 。 


if V is in grad_table then 
Return grad table[V| 

end if 

il 

for C in get_consumers(V,G’) do 
op + get_operation(C) 


D + build_grad(C,G,G’, grad_table) 
G + op.bprop(get_inputs(C, G’), V, D) 


i i+l1 
end for 
Gey, 6 
grad_table[V] = G 
插入 G 和 将 其 生成 到 9 中 的 操作 
Return G 











这 里 ,我 们 考虑 一 个 具有 单个 隐藏 层 的 非常 简单 的 多 层 感 知 机 。 为 了 训练 这 个 








模型 ， 我 们 将 使 用 小 批量 随机 梯度 下 降 算 法 。 反 向 传播 算法 用 于 计算 单个 小 批量 上 
的 代价 的 梯度 。 具体 来 说 , 我 们 使 用 训练 集 上 的 一 小 批量 实例 , 将 其 规范 化 为 一 个 设 
TEA X 以 及 相关 联 的 类 标签 向 量 y。 网 络 计算 隐藏 特征 层 H = max{0, XW}. 


为 了 简化 表示 ， 我 们 在 这 个 模型 中 不 使 用 








放置 。 假 设 我 们 的 图 语言 包含 relu 操作 ， 








该 操作 可 以 对 max{0, Z} 表达 式 的 每 个 元 素 分 别 进行 计算 。 类 的 非 归 一 化 对 数 概率 
的 预测 将 随后 由 HWP 给 出 。 假 设 我 们 的 图 语言 包含 cross_entropy 操作 ， 用 以 
计算 目标 y 和 由 这 些 未 归 一 化 对 数 概 率 定 义 的 概率 分 布 间 的 交叉 炉 。 所 得 到 的 交叉 
REX TRAR Truc B/E IE TBST DR OAT. 然而 ， 


ww ai bbt. com DOO0000 


dourbz/350DFo 


6.5 反 向 传播 和 其 他 的 微分 算法 189 


为 了 使 得 这 个 例子 更 加 真实 ,我们 也 包含 一 个 正则 项 。 总 的 代价 函数 为 


J = Juve +2 (= (WE) +> (oy) (6.56) 


ij 


BR SACU MAB A 的 权重 衰减 项 。 它 的 计算 图 在 图 6.11 中 给 出 。 

















图 6.11: 用 于 计算 代价 函数 的 计算 图 ， 这 个 代价 函数 是 使 用 交叉 炉 损失 以 及 权重 衰减 训练 我 们 的 
PAE MLP 示例 所 产生 的 。 








这 个 示例 的 梯度 计算 图 实在 太 大 ， 以 致 于 绘制 或 者 阅读 都 将 是 乏味 的 。 这 显示 
出 了 反 向 传播 算法 的 优点 之 一 ， 即 它 可 以 自动 生成 梯度 ， 而 这 种 计算 对 于 软件 工程 
师 来 说 需要 进行 直观 但 宛 长 的 手动 推导 。 

我 们 可 以 通过 观察 图 6.11 中 的 正 问 传播 图 来 粗略 地 描述 反 向 传播 算法 的 行为 。 
为 了 训练 ， 我 们 希望 计算 VwwJ 和 Vw)J。 有 两 种 不 同 的 路 径 从 J 后 退 到 权重 : 
一 条 通过 交叉 炉 代 价 ， 男 一 条 通过 权重 衰减 代价 。 权 重 衰减 代价 相对 简单 ， 它 总 是 
对 WO 上 的 梯度 贡献 2A WO. 

男 一 条 通过 交叉 炉 代价 的 路 径 稍 微 复杂 一 些 。 令 G 是 由 cross_entropy 操作 
提供 的 对 未 归 一 化 对 数 概 率 UO) 的 梯度 。 反 向 传播 算法 现在 需要 探索 两 个 不 同 的 分 
Xo 在 较 短 的 分 支 上 , 它 使 用 对 和 抑 阵 乘法 的 第 二 个 变量 的 反 向 传播 规则 , 将 A G 加 
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到 WO 的 梯度 上 。 另 一 条 更 长 些 的 路 径 沿 着 网 络 逐 步 下 降 。 首 先 ， 反 向 传播 算法 使 
用 对 矩阵 乘法 的 第 一 个 变量 的 反 向 传播 规则 ， 计 算 Vad = GWOT, FE, relu 
操作 使 用 其 反 向 传播 规则 来 对 关于 UO 的 梯度 中 小 于 0 的 部 分 清 零 。 记 上 述 结果 为 
G'。 反 向 传播 算法 的 最 后 一 步 是 使 用 对 matmul 操作 的 第 二 个 变量 的 反 向 传播 规则 ， 
将 X C 加 到 WO 的 梯度 上 。 

在 计算 了 这 些 梯度 以 后 ， 梯 度 下 降 算法 或 者 其 他 优化 算法 所 要 做 的 就 是 使 用 这 
些 梯度 来 更 新 参数 。 

对 于 MLP， 计 算 成 本 主要 来 源 于 矩阵 乘法 。 在 前 向 传播 阶段 ， 我 们 乘 以 每 个 权 
HEM, FEET O(w) 数量 的 乘 - 加 ， 甚 中 w 是 权重 的 数量 。 在 反 向 传播 阶段 ， 我 们 
乘 以 每 个 权重 和 矩阵 的 转 置 ， 这 具有 相同 的 计算 成 本 。 算 法 主要 的 存储 成 本 是 我 们 需 
要 将 输入 存储 到 隐藏 层 的 非 线性 中 去 。 这 些 值 从 被 计算 时 开始 存储 ， 直 到 反 向 过 程 
回 到 了 同一 点 。 因 此 存储 成 本 是 Omn), EP m 是 小 批量 中 样本 的 数目 ，n,, 是 隐 
藏 单元 的 数量 。 





6.5.8 ”复杂 化 








我 们 这 里 描述 的 反 向 传播 算法 要 比 实践 中 实际 使 用 的 实现 要 简单 。 

正如 前 面 提 到 的 ,我们 将 操作 的 定义 限制 为 返回 单个 张 量 的 函数 。 大 多 数 软 件 
实现 需要 文 持 可 以 返回 多 个 张 量 的 操作 。 例 如 ， 如 果 我 们 希望 计算 张 量 中 的 最 大 值 
和 该 值 的 索引 ， 则 最 好 在 单 次 运算 中 计算 两 者 ， 因 此 将 该 过 程 实现 为 具有 两 个 输出 
的 操作 效率 更 高 。 

我 们 还 没有 描述 如 何 控制 反 向 传播 的 内 存 消 耗 。 反 上 向 传播 经 常 涉及 将 许多 张 量 
加 在 一 起 。 在 朴素 方法 中 ， 将 分 别 计 算 这 些 张 量 中 的 每 一 个 ， 然 后 在 第 二 步 中 对 所 
有 这 些 张 量 求 和 。 朴 素 方法 具有 过 高 的 存储 瓶 贷 ， 可 以 通过 保持 一 个 缓冲 右 ， 并 且 
在 计算 时 将 每 个 值 加 到 该 缓冲 器 中 来 避免 该 瓶颈 。 

反 向 传播 的 现实 实现 还 需要 处 理 各 种 数据 类 型 ， 例 如 32 位 浮 点 数 、64 位 浮 点 
数 和 整 型 。 处 理 这 些 类 型 的 策略 需要 特别 的 设计 考虑 。 

一 些 操作 具有 未 定义 的 梯度 ， 并 且 重 要 的 是 跟踪 这 些 情况 并 且 确 定 用 户 请 求 的 
梯度 是 否 是 未 定义 的 。 

各 种 其 他 技术 的 特性 使 现实 世界 的 微分 更 加 复杂 。 这 些 技 术 性 并 不 是 不 可 逾越 
的 ， 本 章 已 经 描述 了 计算 微分 所 需 的 关键 知识 工具 ， 但 重要 的 是 要 知道 还 有 许多 的 
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精妙 之 处 存在 。 


6.5.9 深度 学 习 界 以 外 的 微分 


深度 学 习 界 在 某 种 程度 上 已 经 与 更 广泛 的 计算 机 科学 界 隔离 开 来 ， 并 且 在 很 大 
程度 上 发 展 了 自己 关于 如 何 进 行 微分 的 文化 态度 。 更 一 般 地 ， 自 动 微分 (automatic 
differentiation ) 领域 关心 如 何以 算法 方式 计算 导数 。 这 里 描述 的 反问 传播 算法 只 是 
自动 微分 的 一 种 方法 。 它 是 一 种 称 为 反 向 模式 累加 (reverse mode accumulation ) 的 
更 广泛 类 型 的 技术 的 特殊 情况 。 其 他 方法 以 不 同 的 顺序 来 计算 链 式 法 则 的 子 表达 式 。 
一 般 来 说 ， 确 定 一 种 计算 的 顺序 使 得 计算 开销 最 小 ， 是 困难 的 问题 。 找 到 计算 梯度 
的 最 优 操作 序列 是 NP 完全 问题 (Naumann, 2008)， 在 这 种 意义 上 ， 它 可 能 需要 将 
代数 表达 式 简 化 为 它们 最 廉价 的 形式 。 

例如 ， 假 设 我 们 有 变量 pi, po... Dn 表示 概率 ， 以 及 变量 21, 20,..., Zn 表示 未 
归 一 化 的 对 数 概 率 。 假 设 我 们 定义 








epla) 
05 >, exp(zi)’ 
其 中 我 们 通过 指数 化 、 求 和 与 除法 运算 构建 softmax PRA, FPP TESS SIRE PR BL 
J = 一 ,Pilog 9;。 人 类 数学 家 可 以 观察 到 J 对 zz 的 导数 采用 了 非常 简单 的 形式 : 
DiGi — Dio > 反 向 传播 算法 不 能 够 以 这 种 方式 来 简化 梯度 ， 而 是 会 通过 原始 图 中 的 所 
有 对 数 和 指数 操作 显 式 地 传播 梯度 。 一 些 软件 库 如 Theano (Bergstra et al., 2010b; 
Bastien et al., 2012b) 能 够 执行 某 些 种 类 的 代数 贰 换 来 改进 由 纯 反 向 传播 算法 提出 的 
图 。 
当前 向 图 9 具有 单个 输出 节点 ， 并 且 每 个 偏 导数 OO 都 可 以 用 恒定 的 计算 量 
来 计算 时 ， 反 向 传播 保证 梯度 计算 的 计算 数目 和 前 向 计算 的 计算 数目 是 同一 个 量 级 : 
这 可 以 在 算法 6.2 中 看 出 ， 因 为 每 个 局 部 偏 导数 OO 以 及 递归 链 式 公式 (at (6.49) ) 
中 相关 的 乘 和 加 都 只 需 计 算 一 次 。 因 此 , 总 的 计算 量 是 O(#edges)。 然 而 ， 可 能 通过 
对 反 向 传播 算法 构建 的 计算 图 进行 简化 来 减少 这 些 计算 量 ， 并 且 这 是 NP 完全 问题 。 
诸如 Theano 和 TensorFlow 的 实现 使 用 基于 匹配 已 知 简 化 模式 的 试探 法 ， 以 便 重复 
地 尝试 去 简化 图 。 我 们 定义 反问 传播 仅 用 于 计算 标量 输出 的 梯度 ,但 是 反 向 传播 可 
以 扩展 到 计算 Jacobian # (该 Jacobian 矩阵 或 者 来 源 于 图 中 的 个 不 同 标量 节 
点 , 或 者 来 源 于 包含 个 值 的 张 量 值 节点 )。 朴 素 的 实现 可 能 需要 有 倍 的 计算 : 对 于 


3 译 者 注 : 这 里 作者 误 写成 了 gq; 一 pic 


(6.57) 
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原始 前 向 图 中 的 每 个 内 部 标量 节点 ， 朴 泰 的 实现 计算 个 梯度 而 不 是 单个 梯度 。 当 
图 的 输出 数目 大 于 输入 的 数目 时 ， 有 时 更 偏向 于 使 用 另外 一 种 形式 的 自动 微分 ， 称 
为 前 向 模式 累加 (forward mode accumulation )。 前 问 模 式 计算 已 经 被 提出 用 于 循 
环 神经 网 络 梯度 的 实时 计算 ， 例 如 (Williams and Zipser, 1989)。 这 也 避免 了 存储 整 
个 图 的 值 和 梯度 的 需要 ， 是 计算 效率 和 内 存 使 用 的 折 中 。 前 向 模式 和 后 向 模式 的 关 
系 类 似 于 左 乘 和 右 乘 一 系列 矩阵 之 间 的 关系 ， 例 如 

















ABCD, (6.58) 





其 中 的 矩阵 可 以 认为 是 Jacobian 矩阵。 例如 ， 如 果 DD 是 列 向 量 ， 而 A 有 很 多 行 ， 
那么 这 对 应 于 一 幅 具 有 单个 输出 和 多 个 输入 的 图 , 并 且 从 最 后 开始 乘 ， 反 回 进 行 ,只 
需要 和 矩阵 -向 量 的 乘积 。 这 对 应 着 反 向 模式 。 相 反 ， 从 左边 开始 乘 将 涉及 一 系列 的 矩 
阵 - 和 矩阵 乘积 ， 这 使 得 总 的 计算 变 得 更 加 昂贵 。 然 而 ， 如 果 A 的 行 数 小 于 D 的 列 数 ， 
则 从 左 到 右 乘 更 为 便宜 ， 这 对 应 着 前 向 模式 。 

在 机 器 学 习 以 外 的 许多 社区 中 ， 更 常见 的 是 使 用 传统 的 编程 语言 来 直接 实现 微 
分 软件 ， 例 如 用 Python 或 者 C 来 编程 ， 并 且 自 动 生成 使 用 这 些 语言 编写 的 不 同 函 
数 的 程序 。 在 深度 学 习 界 中 ， 计 算 图 通常 使 用 由 专用 库 创 建 的 明确 的 数据 结构 表示 。 
专用 方法 的 缺点 是 需要 库 开 发 人 员 为 每 个 操作 定义 bprop 方法 ， 并 且 限 制 了 库 的 用 
户 仅 使 用 定义 好 的 那些 操作 。 然 而 ， 专 用 方法 也 人 允许 定制 每 个 操作 的 反 向 传播 规则 ， 
允许 开发 者 以 非 显 而 易 见 的 方式 提高 速度 或 稳定 性 ， 对 于 这 种 方式 自动 的 过 程 可 能 
不 能 复制 。 

因此 ， 反 回 传 播 不 是 计算 梯度 的 唯一 方式 或 最 佳 方式 ， 但 它 是 一 个 非常 实用 的 
方法 ， 继 续 为 深度 学 习 社 区 服务 。 在 未 来 ， 深 度 网 络 的 微分 技术 可 能 会 提高 ， 因 为 
深度 学 习 的 从 业者 更 加 懂得 了 更 广泛 的 自动 微分 领域 的 进步 。 











6.5.10 ”高 阶 微分 


一 些 软件 框架 支持 使 用 高 阶 导数 。 在 深度 学 习 软 件 框 架 中 ， 这 至 少 包括 Theano 
和 TensorFlow。 这 些 库 使 用 一 种 数据 结构 来 描述 要 被 微分 的 原始 函数 ， 它 们 使 用 相 
同类 型 的 数据 结构 来 描述 这 个 函数 的 导数 表达 式 。 这 意味 着 符号 微分 机 制 可 以 应 用 
于 导数 (从 而 产生 高 阶 导数 )。 

在 深度 学 习 的 相关 领域 ， 很 少 会 计算 标量 函数 的 单个 二 阶 导数 。 相 反 ， 我们 通 
常 对 Hessian 矩阵 的 性 质 比 较 感 兴趣 。 如 果 我 们 有 函数 f: R” 一 及 ， 那 么 Hessian 
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ERKIDE n x no 在 典型 的 深度 学 习 应 用 中 ，n 将 是 模型 的 参数 数量 ， 可 能 很 容 
易 达 到 数 十 亿 。 因 此 ， 完 整 的 Hessian 矩阵 甚至 不 能 表示 。 

典型 的 深度 学 习 方 法 是 使 用 Krylov 方法 (Krylov method )， 而 不 是 显 式 地 计 
算 Hessian 2. Krylov 方法 是 用 于 执行 各 种 操作 的 一 组 迭代 技术 ， 这 些 操 作 包 括 
像 近似 求解 矩阵 的 着、 或 者 近似 和 矩阵 的 特征 值 或 特征 向 量 等 ， 而 不 使 用 矩阵 -向 量 乘 
法 以 外 的 任何 操作 。 

为 了 在 Hesssian EIEH Krylov 方法 ， 我 们 只 需要 能 够 计算 Hessian 矩阵 
H 和 一 个 任意 向 量 v 间 的 乘积 即 可 。 实 现 这 一 目标 的 一 种 直观 方法 (Christianson, 
1992) 是 








Hv =Vz[(Vaf(z))" v] . (6.59) 


该 表达 式 中 两 个 梯度 的 计算 都 可 以 由 适当 的 软件 库 自 动 完 成 。 注 意 ， 外 部 梯度 表达 
式 是 内 部 梯度 表达 式 的 函数 的 梯度 。 

如 果 v 本身 是 由 计算 图 产生 的 一 个 向 量 ， 那 么 重要 的 是 指定 自动 微分 软件 不 要 
对 产生 v 的 图 进行 微分 。 

虽然 计算 Hessian 通常 是 不 可 取 的 ， 但 是 可 以 使 用 Hessian 向 量 积 。 可 以 对 
所 有 的 i = 1,...,n 简单 地 计算 We, He eO Be = 1 并 且 其 他 元 素 都 为 0 
的 one-hot 癌 量 。 


6.6 ”历史 小 记 


前 馈 网 络 可 以 被 视 为 一 种 高 效 的 非 线性 函数 近似 器 ， 它 以 使 用 梯度 下 降 来 最 小 
化 函数 近似 误差 为 基础 。 从 这 个 角度 来 看 ， 现 代 前 馈 网 络 是 一 般 函 数 近似 任务 的 几 
个 世纪 进步 的 结晶 。 

处 于 反 向 传播 算法 底层 的 链 式 法 则 是 17 世纪 发 明 的 (Leibniz, 1676; L’H6pital, 
1696)。 微 积分 和 代数 长 期 以 来 被 用 于 求解 优化 问题 的 封闭 形式 , 但 梯度 下 降 直到 19 
世纪 才 作 为 优化 问题 的 一 种 迭代 近似 的 求解 方法 被 引入 (Cauchy, 1847)。 

从 20 世纪 40 年 代 开 始 ， 这 些 函 数 近似 技术 被 用 于 导出 诸如 感知 机 的 机 器 学 习 
模型 。 然 而 ， 最 早 的 模型 都 是 基于 线性 模型 。 来 自 包括 Marvin Minsky 的 批评 指出 
了 线性 模型 族 的 几 个 缺陷 , 例如 它 无 法 学 习 XOR 函数 , 这 导致 了 对 整个 神经 网 络 方 
法 的 抵制 。 
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学 习 非 线性 函数 需要 多 层 感 知 机 的 发 展 和 计算 该 模型 梯度 的 方法 。 基 于 动态 规 
划 的 链 式 法 则 的 高 效应 用 开始 出 现在 20 世纪 60 年 代 和 70 年代， 主要 用 于 控制 领 
域 (Kelley, 1960; Bryson and Denham, 1961; Dreyfus, 1962; Bryson and Ho, 1969; 
Dreyfus, 1973) ,也 用 于 灵敏 度 分 析 (Linnainmaa, 1976)。Werbos (1981) 提出 应 用 这 
些 技术 来 训练 人 工 神 经 网 络 。 这 个 想法 以 不 同 的 方式 被 独立 地 重新 发 现 后 (LeCun， 
1985; Parker, 1985; Rumelhart et al., 1986a)， 最 终 在 实践 中 得 以 发 展 。 并 行 分 布 式 
处 理 (Parallel Distributed Processing ) 一 书 在 其 中 一 章 提 供 了 第 一 次 成 功 使 用 反 向 
传播 的 一 些 实验 的 结果 (Rumelhart et al., 1986b)， 这 对 反 向 传播 的 普及 做 出 了 巨大 
的 贡献 ， 并 且 开 启 了 一 个 研究 多 层 神经 网 络 非常 活跃 的 时 期 。 然 而 ， 该 书 作 者 提出 
的 想法 ,特别 是 Rumelhart 和 Hinton 提出 的 想法 远 远 超过 了 反 向 传播 。 它 们 包括 一 
些 关 键 思想 ， 关 于 可 能 通过 计算 实现 认 知 和 学 习 的 几 个 核心 方面 ， 后 来 被 冠 以 “ 联 
结 主义 ”的 名 称 ， 因 为 它 强调 了 神经 元 之 间 的 连接 作为 学 习 和 记忆 的 轨迹 的 重要 性 。 
特别 地 ， 这 些 想 法 包括 分 布 式 表示 的 概念 (Hinton et al., 1986)。 

在 反 向 传播 的 成 功 之 后 ， 神 经 网 络 人 研究 获得 了 普及 ， 并 在 20 世纪 90 年 代 初 达 
到 高 峰 。 随 后 ， 其 他 机 器 学 习 技 术 变 得 更 受 欢迎 ， 直 到 2006 年 开始 的 现代 深度 学 习 
复兴 。 

现代 前 馈 网 络 的 核心 思想 自 20 世纪 80 年 代 以 来 没有 发 牛 重大 变化 。 仍 然 使 用 
相同 的 反 向 传播 算法 和 相同 的 梯度 下 降 方 法 。1986 年 至 2015 年 神经 网 络 性 能 的 大 
部 分 改进 可 归 因 于 两 个 因素 。 首 先 ， 较 大 的 数据 集 减 少 了 统计 泛 化 对 神经 网 络 的 挑 
战 的 程度 。 第 二 ， 神 经 网 络 由 于 更 强大 的 计算 机 和 更 好 的 软件 基础 设施 已 经 变 得 更 
大 。 然 而 ， 少 量 算法 上 的 变化 也 显著 改善 了 神经 网 络 的 性 能 。 

其 中 一 个 算法 上 的 变化 是 用 损失 函数 的 交 又 炉 族 蔡 代 均 方 误差 。 均 方 误差 在 20 
世纪 80 年 代 和 90 年代 流 行 , 但 逐渐 被 交 又 炉 损失 替代 , 并 且 最 大 似 然 原 理 的 想法 在 
统计 学 界 和 机 器 学 习 界 之 间 广 泛 传播 。 使 用 交叉 信 损 失 大 大 提高 了 具有 sigmoid 和 
softmax 输出 的 模型 的 性 能 ， 而 当 使 用 均 方 误差 损失 时 会 存在 饱和 和 学 习 缓 慢 的 问 


题 。 

















男 一 个 显著 改善 前 馈 网 络 性 能 的 算法 上 的 主要 变化 是 使 用 分 段 线性 隐藏 单元 来 
替代 sigmoid 隐藏 单元 ， 例 如 用 整流 线性 单元 。 使 用 max{0, >} 函数 的 整流 在 早期 
神经 网 络 中 已 经 被 引入 ， 并 且 至 少 可 以 追溯 到 认 知 机 〈Cognitron ) 和 神经 认 知 机 
(Neocognitron)(Fukushima, 1975, 1980)。 这 些 早期 的 模型 没有 使 用 整流 线性 单元 ， 
而 是 将 整流 用 于 非 线性 函数 。 尽 管 整流 在 早期 很 普及 , 在 20 世纪 80 年 代 ， 整 流 很 
大 程度 上 被 sigmoid 所 取代 ， 也 许 是 因为 当 神经 网 络 非常 小 时 ，sigmoid 表现 更 好 。 





ww ai bbt.com DODDDDODOD 


dourbz/350DFo 


6.6 历史 小 记 195 


到 21 世纪 初 ， 由 于 有 些 迷 信 的 观念 ， 认 为 必须 避免 具有 不 可 导 点 的 激活 函数 ， 所 
以 避免 了 整流 线性 单元 。 这 在 2009 年 开始 发 生 改 变 。Jarrett et al. (2009b) 观察 到 ， 
在 神经 网 络 结构 设计 的 几 个 不 同 因素 中 “使 用 整流 非 线性 是 提高 识别 系统 性 能 的 最 
重要 的 唯一 因素 ”。 

对 于 小 的 数据 集 ，Jarrett et al. (2009b) 观察 到 ， 使 用 整流 非 线性 甚至 比 学习 隐 
藏 层 的 权重 值 更 加 重要 。 随 机 的 权重 足以 通过 整流 网 络 传播 有 用 的 信息 ， 人 允许 在 顶 
部 的 分 类 器 层 学 习 如 何 将 不 同 的 特征 向 量 映射 到 类 标识 。 

当 有 更 多 数据 可 用 时 ， 学 习 开 始 提取 足够 的 有 用 知识 来 超越 随机 选择 参数 的 性 
能 。Glorot et al. (2011a) 说 明 ， 在 深度 整流 网 络 中 的 学 习 比 在 激活 函数 具有 曲率 或 
两 侧 饱 和 的 深度 网 络 中 的 学 习 更 容易 。 

整流 线性 单元 还 具有 历史 意义 ， 因 为 它们 表明 神经 科学 继续 对 深度 学 习 算 法 的 
发 展 产 生 影响 。Glorot et al. (2011a) 从 生物 学 考虑 整流 线性 单元 的 导出 。 半 整流 非 
线性 旨 在 描述 生物 神经 元 的 这 些 性 质 : (1) 对 于 某 些 输入 ， 生 物 神 经 元 是 完全 不 活 
BRI, (2) 对 于 某 些 输入 ， 生 物 神 经 元 的 输出 和 它 的 输入 成 比例 。(3) 大 多 数 时 间 ， 
生物 神经 元 是 在 它们 不 活跃 的 状态 下 进行 操作 《〈 即 它们 应 该 具有 BRA (sparse 
activation ) )。 

“4 2006 年 深度 学 习 开 始 现代 复兴 时 ， 前 馈 网 络 仍然 有 不 良 的 声誉 。 从 2006 年 
至 2012 年 ， 人 们 普遍 认为 ， 前 馈 网 络 不 会 表现 良好 ,除非 它 们 得 到 其 他 模型 的 辅助 ， 
例如 概率 模型 。 现 在 已 经 知道 ,只 要 具备 适当 的 资源 和 工程 实践 ， 前 馈 网 络 表现 得 
非常 好 。 今 天， 前 馈 网 络 中 基于 梯度 的 学 习 被 用 作 发 展 概率 模型 的 工具 ， 例 如 第 二 
十 章 中 描述 的 变 分 自 编 码 器 和 生成 式 对 抗 网 络 。 前 馈 网 络 中 基于 梯度 的 学 习 自 2012 
年 以 来 一 直 被 视 为 一 种 强大 的 技术 ， 并 应 用 于 许多 其 他 机 器 学 习 任 务 ， 而 不 是 被 视 
为 必须 由 其 他 技术 支持 的 不 可 靠 技 术 。 在 2006 年 ， 业 内 使 用 无 监督 学 习 来 支持 监督 
学 习 ， 现 在 更 讽刺 的 是 ， 更 常见 的 是 使 用 监督 学 习 来 支持 无 监督 学 习 。 

前 馈 网 络 还 有 许多 未 实现 的 潜力 。 示 来， 我们 期 望 它们 用 于 更 多 的 任务 ， 优 化 
算法 和 模型 设计 的 进步 将 进一步 提高 它们 的 性 能 。 本 章 主要 描述 了 神经 网 络 模 型 族 。 
在 接 下 来 的 章节 中 ， 我 们 将 讨论 如 何 使 用 这 些 模 型 一 一 如 何 对 它们 进行 正则 化 和 训 
练 。 
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机 器 学 习 中 的 一 个 核心 问题 是 设计 不 仅 在 训练 数据 上 表现 好 ， 并 且 能 在 新 输入 
上 汉化 好 的 算法 。 在 机 器 学 习 中 ， 许 多 策略 显 式 地 被 设计 为 减少 测试 误差 ( 可 能 会 
以 增 大 训练 误差 为 代价 )。 这 些 策 略 被 统称 为 正则 化 。 我 们 将 在 后 文 看 到 ， 深 度 学 
习 工 作者 可 以 使 用 许多 不 同形 式 的 正则 化 策略 。 事 实 上 ， 开 发 更 有 效 的 正则 化 策略 
已 成 为 本 领域 的 主要 研究 工作 之 一 。 

第 五 章 介 绍 了 泛 化 、 从 拟 合 、 过 拟 合 、 侦 差 、 方 差 和 正则 化 的 基本 概念 。 如 果 你 
不 熟悉 这 些 概念 ， 请 参考 该 章节 再 继续 阅读 本 章 。 

在 本 章 中 ,我们 会 更 详细 地 介绍 正则 化 ， 重 点 介绍 深度 模型 ( 或 组 成 深度 模型 
的 模块 ) 的 正则 化 策略 。 

本 章 中 的 某 些 章节 涉及 机 器 学 习 中 的 标准 概念 。 如 果 你 已 经 熟悉 了 这 些 概念 ， 
可 以 随意 跳 过 相关 章节 。 然 而 ， 本 章 的 大 多 数 内 容 涉 及 这 些 基本 概念 在 特定 神经 网 
络 中 的 扩展 概念 。 

在 第 5.2.2 节 中 ， 我 们 将 正则 化 定义 为 “对 学 习 算法 的 修改 一 一 旨 在 减少 泛 化 误 
差 而 不 是 训练 误差 ”。 目 前 有 许多 正则 化 策略 。 有 些 策略 向 机 器 学 习 模 型 添加 限制 参 
数 的 额外 约束 。 有 些 策略 向 目标 函数 增加 参数 值 软 约束 的 额外 项 。 如 果 我 们 仔细 选 
择 ， 这 些 额 外 的 约束 和 惩罚 可 以 改善 模型 在 测试 集 上 的 表现 。 有 时 候 ， 这 些 约 束 和 
惩罚 被 设计 为 编码 特定 类 型 的 先 验 知识 ; 其 他 时 候 ， 这 些 约束 和 惩罚 被 设计 为 修好 
简单 模型 ， 以 便 提 高 泛 化 能 力 。 有 时 ,惩罚 和 约束 对 于 确定 从 定 的 问题 是 必要 的 。 其 
他 形式 的 正则 化 〈 如 集成 方法 ) 结合 多 个 假说 来 解释 训练 数据 。 

在 深度 学 习 的 背景 下 ， 大 多 数 正 则 化 策略 都 会 对 佑 计 进 行 正则 化 。 佑 计 的 正则 
化 以 偏差 的 增加 换取 方差 的 减少 。 一 个 有 效 的 正则 化 是 有 利 的 “交易 ”， 也 就 是 能 显 
著 减 少 方差 而 不 过 度 增 加 偏差 。 我 们 在 第 五 章 中 讨论 泛 化 和 过 拟 合 时 ， 主 要 侧重 模 
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型 族 训练 的 3 个 情形 ，( 1 ) 不 包括 真实 的 数据 生成 过 程 一 一 对 应 欠 拟 合 和 含有 偏 
差 的 情况 ，( 2 ) 匹配 真实 数据 生成 过 程 ，( 3 ) 除了 包括 真实 的 数据 生成 过 程 ， 还 包 
括 许多 其 他 可 能 的 生成 过 程 一 方差 (而 不 是 偏差 ) 主导 的 过 拟 合 。 正 则 化 的 目标 
是 使 模型 从 第 三 种 情况 转化 为 第 二 种 情况 。 

在 实践 中 ， 过 于 复杂 的 模型 族 不 一 定 包括 目标 函数 或 真实 数据 生成 过 程 ， 甚 至 
也 不 包括 近似 过 程 。 我 们 几乎 从 未 知晓 真实 数据 的 生成 过 程 ， 所 以 我 们 永远 不 知道 
被 估计 的 模型 族 是 否 包括 生成 过 程 。 然 而 ， 深 度 学 习 算法 的 大 多 数 应 用 都 是 针对 这 
样 的 情况 ， 其 中 真实 数据 的 生成 过 程 几乎 肯定 在 模型 族 之 外 。 深 度 学 习 算法 通常 应 
用 于 极为 复杂 的 领域 ， 如 图 像 、 音 频 序 列 和 文本 ， 本 质 上 这 些 领域 的 真实 生成 过 程 
涉及 模拟 整个 宇宙 。 从 某 种 程度 上 说 ， 我 们 总 是 持 方 栅 (数据 生成 过 程 ) MKAA 
i (我 们 的 模型 族 )。 

这 意味 着 控制 模型 的 复杂 度 不 是 找到 合适 规模 的 模型 ( 带 有 正确 的 参数 个 数 ) 
这 样 一 个 简单 的 事情 。 相 反 ， 我 们 可 能 会 发 现 ， 或 者 说 在 实际 的 深度 学 习 场景 中 我 
们 几乎 总 是 会 发 现 ， 最 好 的 拟 合 模型 (从 最 小 化 泛 化 误差 的 意义 上 ) 是 一 个 适当 正 
则 化 的 大 型 模型 。 

现在 我 们 回顾 几 种 策略 ， 以 创建 这 些 正则 化 的 大 型 深度 模型 。 
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正则 化 在 深度 学 习 的 出 现 前 就 已 经 被 使 用 了 数 十 年 。 线 性 模型 ,如 线性 回归 和 逮 
号 回归 可 以 使 用 简单 、 直 接 、 有 效 的 正则 化 策略 。 

许多 正则 化 方法 通过 对 目标 函数 J 添加 一 个 参数 范 数 惩罚 Q(9)， 限 制 模型 
( 如 神经 网 络 、 线 性 回归 或 逻辑 回归 ) 的 学 习 能 力 。 我 们 将 正则 化 后 的 目标 函数 记 为 
J: 





“Eb 




















J(0; X, y) = J(0; X, y) + a4), (7.1) 

其 中 a € (0,00) 是 权衡 范 数 惩罚 项 O 和 标准 目标 函数 J(X; 0) 相对 贡献 的 超 参 数 。 
将 a 设 为 0 表示 没有 正则 化 。a 越 大 ， 对 应 正则 化 惩罚 越 大 。 

当 我 们 的 训练 算法 最 小 化 正则 化 后 的 目标 函数 J 时 ， 它 会 降低 原始 目标 J 关于 

训练 数据 的 误差 并 同时 减 小 参数 9 的 规模 ( 或 在 某 些 衡量 下 参数 子 集 的 规模 )。 选 择 

不 同 的 参数 范 数 O 会 偏好 不 同 的 解法 。 在 本 节 中 ， 我 们 会 讨论 各 种 范 数 惩 罚 对 模型 
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的 影响 。 

在 探究 不 同 范 数 的 正则 化 表现 之 前 ， 我 们 需要 说 明 一 下 ， 在 神经 网 络 中 我 们 通 
常 只 对 每 一 层 仿 射 变换 的 权重 做 惩罚 而 不 对 偏 置 做 正则 惩罚 。 精 确 拟 合 偏 置 所 需 的 
数据 通常 比拟 合 权重 少 得 多 。 每 个 权重 会 指定 两 个 变量 如 何 相 互 作用 。 我 们 需要 在 
各 种 条 件 下 观察 这 两 个 变量 才能 良好 地 拟 合 权重 。 而 每 个 仿 置 仅 控制 一 个 单 变量 。 
这 意味 着 ,我 们 不 对 其 进行 正则 化 也 不 会 导致 太 大 的 方差 。 另外， 正则 化 偏 置 参数 
可 能 会 导致 明显 的 欠 拟 合 。 因 此 ， 我 们 使 用 向 量 w 表示 所 有 应 受 范 数 惩罚 影响 的 权 
重 ， 而 向 量 0 表示 所 有 参数 (包括 w 和 无 需 正则 化 的 参数 )。 

在 神经 网 络 的 情况 下 ， 有 时 希望 对 网 络 的 每 一 层 使 用 单独 的 惩罚 ， 并 分 配 不 同 
的 a 系数 。 拟 合 多 个 超 参数 的 代价 很 大 ， 因 此 为 了 减少 搜索 空间 ， 我 们 会 在 所 有 层 
使 用 相同 的 权重 衰减 。 






























































7.1.1 D 参数 正则 化 








在 第 5.2 节 中 我 们 已 经 看 到 过 最 简单 和 最 常见 的 参数 范 数 惩罚 , 即 通常 被 称 为 权 
BRM (weight decay ) 的 L? 参数 范 数 惩罚 。 这 个 正则 化 策略 通过 向 目标 函数 添加 
一 个 正则 项 Q(9) = 3 jjwll2， 使 权重 更 加 接近 原点 1!。 在 其 他 学 术 圈 ，L? 也 被 称 为 崔 
回归 或 Tikhonov 正则 。 

我 们 可 以 通过 研究 正则 化 化 后 目标 函数 的 梯度 ， 洞 察 一 些 权 重 衰 减 的 正则 化 表 
现 。 为 了 简单 起 见 ， 我 们 假定 其 中 没有 偏 置 参数 ， 因 此 0 就 是 w。 这 样 一 个 模型 具 
有 以 下 总 的 目标 函数 : 

















J(w; X,y) = Sw w+ J(w; X, y), (7.2) 
与 之 对 应 的 梯度 为 


Vwd (w; X, y) = aw + VJ (w; X, y). (7.3) 


使 用 单 步 梯 度 下 降 更 新 权重 ， 即 执行 以 下 更 新 : 








w <+ w-— elaw+ VwJ(w; X, y)). (7.4) 








:更 一 般 地 ， 我 们 可 以 将 参数 正则 化 为 接近 空间 中 的 任意 特定 点 ， 令 人 惊讶 的 是 这 样 也 仍 有 正则 化 效果 ， 但 是 特定 
点 越 接近 真实 值 结果 越 好 。 当 我 们 不 知道 正确 的 值 应 该 是 正 还 是 负 时 ， 零 是 有 意义 的 默认 值 。 巾 于 模型 参数 正则 化 为 
零 的 情况 更 为 常见 ， 我 们 将 只 探讨 这 种 特殊 情况 。 
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换 种 写法 就 是 
w + (1 —€a)w—€VyJ(w; X, y). (7.5) 





我 们 可 以 看 到 , 加 入 权重 衰减 后 会 引起 学 习 规 则 的 修改 , 即 在 每 步 执行 通常 的 梯度 更 
新 之 前 先 收缩 权重 向 量 ( 将 权重 向 量 乘 以 一 个 常数 因子 )。 这 是 单个 步 又 发 生 的 变 
化 。 但 是 ， 在 训练 的 整个 过 程 会 发 生 什么 呢 ? 

我 们 进一步 简化 分 析 ， 令 w* 为 不 含 正 则 化 的 目标 函数 取得 最 小 训练 误差 时 的 
权重 向 量 , BI w = arg minw J(w), IEE w* 的 邻 域 对 目标 函数 做 二 次 近似 。 如 果 目 
标 函 数 确实 是 二 次 的 (如 以 均 方 误差 拟 合 线性 回归 模型 的 情况 )， 则 该 近似 是 完美 的 。 
近似 的 j(9) 如 下 








j(0) = J(u") + iw- PDH w — Ww"), (7.6) 
其 中 五 是 J 在 w 处 计算 的 Hessian 矩阵 (关于 w)。 因 为 w 被 定义 为 最 优 ， 即 梯 
度 消失 为 0， 所 以 该 二 次 近似 中 没有 一 阶 项 。 同 样 地 ， 因 为 w 是 J 的 一 个 最 优点 ， 
我 们 可 以 得 出 五 是 半 正 定 的 结论 。 

当 .7 取得 最 小 时 ， 其 梯度 

Vad (w) = H(w— u*) (7.7) 

为 0。 

为 了 研究 权重 衰减 带 来 的 影响 ,我 们 在 式 (7.7) 中 添加 权重 衰减 的 梯度 。 现 在 我 
们 探讨 最 小 化 含有 正则 化 的 7。 我 们 使 用 变量 w 表示 此 时 的 最 优点 : 


aw + H(w—- w*) =0 (7.8) 
(H+ alw= Hw (7.9) 
w= (H+aD Hu” (7.10) 


“ a 趋向 于 0 时 ， 正 则 化 的 解 © 会 趋向 w*。 那 么 当 a 增加 时 会 发 生 什么 呢 ? 
因为 五 是 实 对 称 的 ， 所 以 我 们 可 以 将 其 分 解 为 一 个 对 角 和 矩阵 A 和 一 组 特征 向 量 的 
标准 正 交 基 Q, HHE H= QAQ 。 将 其 应 用 于 式 (7.10) ， 可 得 : 


w= (QAQ' +aD-IQAQ w (7.11) 
=[Q(A+aDQ] QAQ" w (7.12) 
= Q(A+al'AQ'u*. (7.13) 
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我 们 可 以 看 到 权重 衰减 的 效果 是 沿 着 由 五 的 特征 向 量 所 定义 的 轴 缩 放 w*。 具 体 来 
Bi, FAN AL 因子 缩放 与 五 第 i 个 特征 向 量 对 齐 的 ur 的 分 量 。 (不 妨 查 
看 图 2.3 回顾 这 种 缩放 的 原理 )。 

沿 着 五 特 征 值 较 大 的 方向 (如 入 > ao) 正则 化 的 影响 较 小 。 而 AG << a 的 分 量 将 
会 收缩 到 几乎 为 零 。 这 种 效应 如 图 7.1 所 示 。 











图 7.1: L? (或 权重 衰减 ) 正则 化 对 最 佳 w 值 的 影响 。 实 线 椭圆 表示 没有 正则 化 目标 的 等 值 线 。 虚 
线 圆圈 表示 L? 正则 化 项 的 等 值 线 。 在 也 点, 这 两 个 竞争 目标 达到 平衡 。 目标 函数 J 的 Hessian 的 
第 一 维特 征 值 很 小 。 当 从 w 水 平移 动 时 ,目标 函数 不 会 增加 得 太 多 。 因 为 目标 函数 对 这 个 方向 没 
有 强烈 的 偏好 ， 所 以 正则 化 项 对 该 轴 具 有 强烈 的 影响 。 正 则 化 项 将 wi 拉 向 零 。 而 目标 函数 对 沿 着 
第 二 维 远离 w 的 移动 非常 敏感 。 对 应 的 特征 值 较 大 ， 表 示 高 曲率 。 因 此 ， 权 重 衰减 对 wa 的 位 置 
影响 相对 较 小 。 
























































只 有 在 显著 减 小 目标 函数 方向 上 的 参数 会 保留 得 相对 完好 。 在 无 助 于 目标 函 
数 减 小 的 方向 ( 对 应 Hessian 和 矩阵 较 小 的 特征 值 ) 上 改变 参数 不 会 显著 增加 梯度 。 这 
种 不 重要 方向 对 应 的 分 量 会 在 训练 过 程 中 因 正 则 化 而 衰减 掉 。 

目前 为 止 ， 我们 讨论 了 权重 衰减 对 优化 一 个 抽象 通用 的 二 次 代价 函数 的 影响 。 
这 些 影响 具体 是 怎么 和 机 需 学 习 关 联 的 呢 ? 我 们 可 以 研究 线性 回归 ， 它 的 真实 代价 
函数 是 二 次 的 ， 因 此 我 们 可 以 使 用 相同 的 方法 分 析 。 再 次 应 用 分 析 ， 我 们 会 在 这 种 
情况 下 得 到 相同 的 结果 ， 但 这 次 我 们 使 用 训练 数据 的 术语 表述 。 线 性 回归 的 代价 函 
数 是 平方 误差 之 和 : 











(Xw-— y)' (Xw -— y). (7.14) 
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我 们 添加 L? 正则 项 后 ， 目 标 函 数 变 为 


Cn ae Law w. (7.15) 
这 将 普通 方程 的 解 从 
=(X'X) X'y (7.16) 
变 为 
=(X'X+al)'X'y. (7.17) 


式 (7.16) 中 的 矩阵 XTX 与 协 方差 矩阵 1 XTX 成 正比 。L? TED Se 
HR (7.17) 中 的 (X' X +a)! 这 个 新 矩阵 与 原来 的 是 一 样 的 ， 不 同 的 仅仅 是 在 对 
角 加 了 ao 这 个 和 矩阵 的 对 角 项 对 应 每 个 输入 特征 的 方差 。 我 们 可 以 看 到 ， 三 正则 化 能 
让 学 习 算法 “感知 ”到 具有 较 高 方差 的 输入 z， 因 此 与 输出 目标 的 协 方差 较 小 (相对 
增加 方差 ) 的 特征 的 权重 将 会 收缩 。 





7.1.2 L! 参数 正则 化 














蕊 权重 衰减 是 权重 衰减 最 常见 的 形式 ， 我 们 还 可 以 使 用 其 他 的 方法 限制 模型 
数 的 规模 。 比 如 我 们 还 可 以 使 用 LI 正则 化 。 
形式 地 ， 对 模型 参数 w 的 也 正则 化 被 定义 为 : 


= |lwll = 2 lwil, (7.18) 


即 各 个 参数 的 绝对 值 之 和 ?。 接 着 我 们 将 讨论 瑟 正 则 化 对 简单 线性 回归 模型 的 影响 ， 
与 分 析 天 正则 化 时 一 样 不 考虑 俩 置 参数 。 我 们 尤其 感 兴趣 的 是 找 出 L! 和 天 正则 
化 之 间 的 差异 。 与 到 权重 衰减 类 似 ， 我 们 也 可 以 通过 缩放 惩罚 项 9 的 正 超 参数 a 
来 控制 二 权重 衰减 的 强度 。 因 此 ， 正 则 化 的 目标 函数 J (w; X, y) 如 下 所 示 











J(w; X, y) = awl: + J(w; X, y), (7.19) 
对 应 的 梯度 (实际 上 是 次 梯度 ) : 


Vw (w; X, y) = asign(w) + VJ (w; X, y), (7.20) 





2w LEME, RAE BBE MERRER w, CERCA, LEME AS AA E Ay 
Q(0) = |w- wo = ;lw — wo 
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其 中 sign(w) 只 是 简单 地 取 w 各 个 元 素 的 正 负 号 。 

观察 式 (7.20) ， 我 们 立刻 发 现 L 的 正则 化 效果 与 L 大 不 一 样 。 具 体 来 说 ， 我 
们 可 以 看 到 正则 化 对 梯度 的 影响 不 再 是 线性 地 缩放 每 个 w 而 是 添加 了 一 项 与 
sign(w;) 同 号 的 常数 。 使 用 这 种 形式 的 梯度 之 后 ， 我 们 不 一 定 能 得 到 I (X, y; w) 二 
次 近似 的 直接 算术 解 〈 玫 正则 化 时 可 以 )。 

简单 线性 模型 具有 二 次 代价 函数 ， 我 们 可 以 通过 泰勒 级 数 表示 。 或 者 我 们 可 以 
设想 ， 这 是 逼近 更 复杂 模型 的 代价 函数 的 截断 泰勒 级 数 。 在 这 个 设 定 下 ， 梯 度 由 下 
式 给 出 


Vwd (w) = H(w-— u”), (7.21) 


同样 ， 互 是 了 在 w 4bhjHessianjElE (关于 内 )。 

由 于 L 惩罚 项 在 满 的 、 一 般 的 Hessian 的 情况 下 ， 无 法 得 到 直接 清晰 的 代数 表 
达 式 , 因此 我 们 将 进一步 简化 假设 Hessian 是 对 角 的 , BI H = diag([Hi1,...,Hnnl), 
其 中 每 个 Hii > 0。 如 果 线 性 回归 问题 中 的 数据 已 被 预 处 理 ( 如 可 以 使 用 PCA), 去 
除了 输入 特征 之 间 的 相关 性 ， 那 么 这 一 假设 成 立 。 

我 们 可 以 将 姜 正 则 化 目标 函数 的 二 次 近似 分 解 成 关于 参数 的 求 和 : 





Jw; X, y) = J(w*; X, y) + > 





1 
3 Hii(w: —wryt vm . (7.22) 


如 下 列 形式 的 解析 人 解 ( 对 每 一 维 i) 可 以 最 小 化 这 个 近似 代价 函数 : 


w; = sign (w’ ) max el 一 =o}. (7.23) 


考虑 所 有 i H w > 0 的 情形 ， 会 有 两 种 可 能 输出 : 





1. w < an 的 情况 。 正 则 化 后 目标 中 的 w; 最 优 值 是 w; = 0。 这 是 因为 在 方向 i 
上 J(w; X, y) X 7(w; X, y) 的 贡献 受到 抑制 ，L! 正 则 化 项 将 w; 推 向 0。 


2. wh > is 的 情况 。 在 这 种 情况 下 ， 正 则 化 不 会 将 wi 的 最 优 值 推 向 0， 而 仅仅 
在 那个 方向 上 移动 e 的 距离 。 


tt 





wi <0 的 情况 与 之 类 似 , 但 是 L 惩罚 项 使 wi 更 接近 0( 增 加 a) 或 者 为 0。 


FALE PENI, DMEM ozs re BE Rt (sparse) AY ARE. UC Abin DETS AY 
最 优 值 中 的 一 些 参数 为 0。 和 LENEA, L EMAER ARA E 
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式 (7.13) 给 出 了 如 正则 化 的 解 如 。 如 果 我 们 使 用 Hessian EE H IX fA EEEE 
的 假设 (与 区 正则 化 分 析 时 一 样 )， 重 新 考虑 这 个 等 式 ， 我 们 发 现 w = Ata whe 
如 果 wi AES, 那么 w$; 也 会 保持 非 零 。 这 表明 LD? TEMA AB TMT 
五 正则 化 有 可 能 通过 足够 大 的 a SOUT o 

由 瑟 : 正 则 化 导出 的 稀 朴 性 质 已 经 被 广泛 地 用 于 特征 选择 (feature selection ) 机 
制 。 特 征 选择 从 可 用 的 特征 子 集 选 择 出 有 意义 的 特征 ， 化 简 机 器 学 习 问 题 。 若 名 的 
LASSO (Tibshirani, 1995) (Least Absolute Shrinkage and Selection Operator ) 模 
型 将 元: 惩罚 和 线性 模型 结合 ， 并 使 用 最 小 二 乘 代 价 函 数 。L! 惩罚 使 部 分 子 集 的 权 
重 为 零 ， 表 明 相 应 的 特征 可 以 被 安全 地 忽略 。 

在 第 5.6.1 节 ， 我 们 看 到 许多 正则 化 策略 可 以 被 解释 为 MAP 贝 叶 斯 推断 ， 特 别 
是 刀 正 则 化 相当 于 权重 是 高 斯 先 验 的 MAP 贝 叶 斯 推断 。 对 于 L ENE, HAFEN 
化 代价 函数 的 惩罚 项 aQ(w) = a D>; jwi) 与 通过 MAP 贝 叶 斯 推断 最 大 化 的 对 数 先 
验 项 是 等 价 的 (we R” 并 且 权 重 先 验 是 各 向 同性 的 拉 普 拉 斯 分 布 ( 式 (3.26) )): 

















il 
log p(w) = X log Laplace(w;; 0, p> = —a||w||, +nloga— nlog2. (7.24) 


因为 是 关于 w 最 大 化 进行 学 习 , 我 们 可 以 忽略 log a 一 log2 项 ,因为 它们 与 w 无 关 。 
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考虑 通过 参数 范 数 正则 化 的 代价 函数 : 


J(0; X, y) = J(0; X, y) + aQ(0). (7.25) 


回顾 第 4.4 节 我 们 可 以 构造 一 个 广义 Lagrange K BOK me ME TE AR AY PR R, 
即 在 原始 目标 函数 上 添加 一 系列 惩罚 项 。 每 个 惩罚 是 一 个 系数 之 间 的 乘积 ， 被 称 
Wy Karush-Kuhn-Tucker ( Karush-Kuhn-Tucker ) 乘 子 ， 以 及 一 个 表示 约束 是 否 
满足 的 函数 。 如 果 我 们 想 约 束 Q(9) 小 于 某 个 常数 天， 我 们 可 以 构建 广义 Lagrange 
L(0,a; X, y) = J(0; X, y) + a(Q(8) — k). (7.26) 

这 个 约束 问题 的 解 由 下 式 给 出 


0* = arg min max L (0, a). (7.27) 
0 a,a>0 
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如 第 4.4 节 中 描述 的 ， 解 决 这 个 问题 我 们 需要 同时 改变 9 和 a。 第 4.5 节 给 出 了 
一 个 带 到 约束 的 线性 回归 实例 。 还 有 许多 不 同 的 优化 方法 ， 有 些 可 能 会 使 用 梯度 下 
降 而 其 他 可 能 会 使 用 梯度 为 0 的 解析 解 ， 但 在 所 有 程序 中 a 在 QO) > k 时 必须 增 
fm, 在 Q(9) < k 时 必须 减 小 。 所 有 正 值 的 a 都 鼓励 Q(9) 收缩 。 最 优 值 a* 也 将 鼓 
励 UO 收缩 ， 但 不 会 像 Q(6) 小 于 大 时 那么 强烈 。 

为 了 洞察 约束 的 影响 ， 我 们 可 以 固定 w* ， 把 这 个 问题 看 成 只 跟 9 有 关 的 函数 : 


0* =argmin £(6,a*) = argmin J(0; X, y) +a*Q(8). (7.28) 
8 8 


这 和 最 小 化 7 的 正则 化 训练 问题 是 完全 一 样 的 。 因 此 ， 我 们 可 以 把 参数 范 数 惩罚 看 
作对 权重 强加 的 约束 。 如 果 9 是 L 范 数 ， 那么 权重 就 是 被 约束 在 一 个 L 球 中 。 如 
果 Q 是 Lt 范 数 ， 那 么 权重 就 是 被 约束 在 一 个 L 范 数 限制 的 区 域 中 。 通 常 我 们 不 
知道 权重 衰减 系数 a* 约束 的 区 域 大 小 ， 因 为 a* 的 值 不 直接 告诉 我 们 的 值 。 原 则 
上 我 们 可 以 解 得 有, 但 有 和 a* 之 间 的 关系 取决 于 J 的 形式 。 虽 然 我 们 不 知道 约束 
区 域 的 确切 大 小 ， 但 我 们 可 以 通过 增加 或 者 减 小 a 来 大 致 扩大 或 收缩 约束 区 域 。 较 
大 的 a， 将 得 到 一 个 较 小 的 约束 区 域 。 较 小 的 a， 将 得 到 一 个 较 大 的 约束 区 域 。 

有 时 候 ， 我 们 和 希望 使 用 显 式 的 限制 ， 而 不 是 惩罚 。 如 第 4.4 节 所 述 ， 我 们 可 以 修 
改 下 降 算 法 ( 如 随机 梯度 下 降 算法 )， 使 其 先 计 算 J(0) 的 下 降 步 ， 然 后 将 9 投影 到 
满足 Q0) < k 的 最 近 点 。 如 果 我 们 知道 什么 样 的 天 是 合适 的 ， 而 不 想 花 时 间 寻 找 对 
应 于 此 大 处 的 a 值 ， 这 会 非常 有 用 。 

另 一 个 使 用 显 式 约 束 和 重 投影 而 不 是 使 用 惩罚 强加 约束 的 原因 是 惩罚 可 能 会 导 
致 目标 函数 非 凸 而 使 算法 陷入 局 部 极 小 (对 应 于 小 的 9 )。 当 训练 神经 网 络 时 ， 这 通 
常 表现 为 训练 带 有 儿 个 “死亡 单元 ”的 神经 网 络 。 这 些 单元 不 会 对 网 络 学 到 的 函数 
有 太 大 影响 ， 因 为 进入 或 离开 它们 的 权重 都 非常 小 。 当 使 用 权重 范 数 的 惩罚 训练 时 ， 
即使 可 以 通过 增加 权重 以 显著 减少 J， 这 些 配 置 也 可 能 是 局 部 最 优 的 。 因 为 重 投影 
实现 的 显 式 约束 不 鼓励 权重 接近 原点 ， 所 以 在 这 些 情 况 下 效果 更 好 。 通 过 重 投影 实 
现 的 显 式 约束 只 在 权重 变 大 并 试图 离开 限制 区 域 时 产生 作用 。 

最 后 ， 因 为 重 投影 的 显 式 约束 还 对 优化 过 程 增加 了 -一定 的 稳定 性 ， 所 以 这 是 另 
一 个 好 处 。 当 使 用 较 高 的 学 习 率 时 ,很 可 能 进入 正 反馈 ， 即 大 的 权重 诱导 大 梯度 ， 然 
后 使 得 权重 获得 较 大 更 新 。 如 果 这 些 更 新 持续 增加 权重 的 大 小 ，2 就 会 迅速 增 大 , 直 
到 离 原点 很 远 而 发 生 游 出 。 重 投影 的 显 式 约束 可 以 防止 这 种 反馈 环 引起 权重 无 限制 
地 持续 增加 。Hinton et al. (2012b) 建议 结合 使 用 约束 和 高 学 习 速 率 ， 这 样 能 更 快 地 
探索 参数 空间 ， 并 保持 一 定 的 稳定 性 。 
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Hinton et al. (2012b) 尤其 推荐 由 Srebro and Shraibman (2005) 引入 的 策略 : 24 
RAAK Je FY ASE BE EIS, TTS BS ll BE PAE Frobenius 范 数 。 
分 别 限 制 每 一 列 的 范 数 可 以 防止 某 一 隐藏 单元 有 非常 大 的 权重 。 如 果 我 们 将 此 约束 
转换 成 Lagrange 函数 中 的 一 个 惩罚 ， 这 将 与 L? 权重 衰减 类 似 但 每 个 隐藏 单元 的 权 
重 都 具有 单独 的 KKT 乘 子 。 每 个 KKT 乘 子 分 别 会 被 动态 更 新 ， 以 使 每 个 隐藏 单 
元 服从 约束 。 在 实践 中 ， 列 范 数 的 限制 总 是 通过 重 投影 的 显 式 约束 来 实现 。 














7.3 ”正则 化 和 欠 约 束 问 题 


在 某 些 情况 下 ， 为 了 正确 定义 机 器 学 习 问 题 ， 正 则 化 是 必要 的 。 机 器 学 习 中 许 
多 线性 模型 ， 包 括 线性 回归 和 PCA, RTRA XTX, RE XTX 是 奇异 
的 ， 这 些 方法 就 会 失效 。 当 数据 生成 分 布 在 一 些 方向 上 确实 没有 差异 时 ， 或 因为 例 
子 较 少 ( 即 相对 输入 特征 CX 的 列 ) 来 说 ) 而 在 一 些 方向 上 没有 观察 到 方差 时 ， 这 
个 矩阵 就 是 奇异 的 。 在 这 种 情况 下 ， 正 则 化 的 许多 形式 对 应 求 逆 XTX + aT, 这 个 正 
则 化 矩阵 可 以 保证 是 可 逆 的 。 

相关 和 矩阵 可 逆 时 ， 这 些 线性 问题 有 闭 式 解 。 没 有 闭 式 解 的 问题 也 可 能 是 欠 定 的 。 
一 个 例子 是 应 用 于 线性 可 分 问题 的 逻辑 回归 。 如 果 权 重 向 量 w 能 够 实现 完美 分 类 ， 
那么 2w 也 会 以 较 高 似 然 实现 完美 分 类 。 类 似 随机 梯度 下 降 的 迭代 优化 算法 将 持续 
增加 w 的 大 小 ,理论 上 永远 不 会 停止 。 在 实践 中 ， 数 值 实现 的 梯度 下 降 最 终 会 达到 
导致 数值 溢出 的 超大 权重 ， 此 时 的 行为 将 取决 于 程序 员 如 何 处 理 这 些 不 是 真正 数字 
的 值 。 

大 多 数 形式 的 正则 化 能 够 保证 应 用 于 欠 定 问题 的 迭代 方法 收敛 。 例 如 ， 当 似 然 
的 斜率 等 于 权重 衰减 的 系数 时 ， 权 重 衰 减 将 阻止 梯度 下 降 继续 增加 权重 的 大 小 。 

使 用 正则 化 解决 从 定 问题 的 想法 超出 了 机 器 学 习 的 范畴 。 同 样 的 想法 在 几 个 基 
本 线性 代数 问题 中 也 非常 有 用 。 

正如 我 们 在 第 2.9 节 看 到 的 ， 我 们 可 以 使 用 Moore-Penrose 求解 欠 定 线性 方程 。 
回想 XX fyi XT 的 一 个 定义 : 











Xt= lim(X X + aD)“ XxX". (7.29) 


现在 我 们 可 以 将 第 7.29 节 看 作 进行 具有 权重 衰减 的 线性 回归 。 有 具体 来 说 , 当 正 则 化 系 
数 趋 向 0 时 ， 式 (7.29) 是 式 (7.17) 的 极限 。 因 此 ， 我 们 可 以 将 伪 逆 解释 为 使 用 正则 
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7.4 ”数据 集 增强 


让 机 器 学 习 模 型 泛 化 得 更 好 的 最 好 办 法 是 使 用 更 多 的 数据 进行 训练 。 当 然 ， 在 
实践 中 ,我 们 拥有 的 数据 量 是 很 有 限 的 。 解 决 这 个 问题 的 一 种 方法 是 创建 假 数据 并 
添加 到 训练 集中 。 对 于 一 些 机 器 学 习 任务 ， 创 建新 的 假 数 据 相 当 简 单 。 

对 分 类 来 说 这 种 方法 是 最 简单 的 。 分 类 器 需要 一 个 复杂 的 高 维 输入 z， 并 用 单 
个 类 别 标识 y 概括 z。 这 意味 着 分 类 面临 的 一 个 主要 任务 是 要 对 各 种 各 样 的 变换 保 
持 不 变 。 我 们 可 以 轻易 通过 转换 训练 集中 的 x 来 生成 新 的 (zx,y) 对 。 

这 种 方法 对 于 其 他 许多 任务 来 说 并 不 那么 容易 。 例 如 ， 除 非 我 们 已 经 解决 了 密 
度 估计 问题 ， 和 否则 在 密度 估计 任务 中 生成 新 的 假 数 据 是 很 困难 的 。 

数据 集 增 强 对 一 个 具体 的 分 类 问题 来 说 是 特别 有 效 的 方法 : 对 象 识 别 。 图 像 是 
高 维 的 并 包括 各 种 巨大 的 变化 因素 ， 其 中 有 许多 可 以 轻易 地 模拟 。 即 使 模型 已 使 用 
卷 积 和 池 化 技术 (第 九 章 ) 对 部 分 平移 保持 不 变 ， 沿 训练 图 像 每 个 方向 平移 几 个 像 
素 的 操作 通常 可 以 大 大 改善 泛 化 。 许 多 其 他 操作 如 旋转 图 像 或 缩放 图 像 也 已 被 证 明 
非常 有 效 。 

我 们 必须 要 小 心 ， 不 能 使 用 会 改变 类 别 的 转换 。 例 如 ， 光 学 字符 识别 任务 需要 
认识 到 “b” 和 “qd” 以 及 “6” 和 “9” 的 区 别 ， 所 以 对 这 些 任务 来 说 ， 水平 翻 转 和 旋转 
180° 并 不 是 合适 的 数据 集 增强 方式 。 

能 保持 我 们 希望 的 分 类 不 变 ,但 不 容易 执行 的 转换 也 是 存在 的 。 例 如 ,平面 外 
绕 轴 转动 难以 通过 简单 的 几何 运算 在 输入 像素 上 实现 。 

数据 集 增强 对 语音 识别 任务 也 是 有 效 的 (Jaitly and Hinton, 2013)。 

在 神经 网 络 的 输入 层 注 入 噪声 (Sietsma and Dow, 1991) 也 可 以 被 看 作 是 数据 增 
强 的 一 种 方式 。 对 于 许多 分 类 甚至 一 些 回 归 任 务 而 言 ， 即 使 小 的 随机 噪声 被 加 到 输 
A, 任务 仍 应 该 是 能 够 被 解决 的 。 然 而 ， 神 经 网 络 被 证 明 对 噪声 不 是 非常 健壮 (Tang 
and Eliasmith，2010)。 改 善 神经 网 络 健壮 性 的 方法 之 一 是 简单 地 将 随机 噪声 添加 到 
输入 再 进行 训练 。 输 入 噪声 注入 是 一 些 无 监督 学 习 算 法 的 一 部 分 ， 如 去 噪 自 编码 
器 (Vincent et al., 2008a)。 向 隐藏 单元 施加 噪声 也 是 可 行 的 ,这 可 以 被 看 作 在 多 个 抽 
象 层 上 进行 的 数据 集 增强 。Poole et al. (2014) 最 近 表 明 ， 噪 声 的 幅度 被 细心 调整 后 ， 
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该 方法 是 非常 高 效 的 。 我 们 将 在 第 7.12 59h ZA— TRAE LEM Dropout, 1% 
策略 可 以 被 看 作 是 通过 与 噪声 相 乘 构建 新 输入 的 过 程 。 

在 比较 机 天 学 习 基准 测试 的 结果 时 ， 考 虑 其 采取 的 数据 集 增强 是 很 重要 的 。 通 
常情 况 下 ， 人 工 设计 的 数据 集 增强 方案 可 以 大 大 减少 机 器 学 习 技 术 的 泛 化 误差 。 将 
一 个 机 顺 学 习 算 法 的 性 能 与 另 一 个 进行 对 比 时 ， 对 照 实验 是 必要 的 。 在 比较 机 顺 学 
习 算法 A 和 机 器 学 习 算法 B 时 ,应 该 确保 这 两 个 算法 使 用 同一 人 工 设 计 的 数据 集 增 
强 方案 进行 评 佑 。 假 设 算法 A 在 没有 数据 集 增强 时 表现 不 佳 , 而 B 结合 大 量 人 工 转 
换 的 数据 后 表现 良好 。 在 这 样 的 情况 下 ， 很 可 能 是 合成 转化 引起 了 性 能 改进 ， 而 不 
是 机 器 学 习 算 法 B 比 算法 A 更 好 。 有 时 候 ， 确 定 实验 是 否 已 经 适当 控制 需要 主观 
判断 。 例 如 ， 向 输入 注 和 人 噪声 的 机 天 学 习 算 法 是 执行 数据 集 增 强 的 一 种 形式 。 通 党 ， 
普 适 操作 ( 例如， 向 输入 添加 高 斯 噪声 ) 被 认为 是 机 带 学 习 算法 的 一 部 分 ， 而 特定 
于 一 个 应 用 领域 ( 如 随机 地 裁剪 图 像 ) 的 操作 被 认为 是 独立 的 预 处 理 步 又 。 








7.5 meee 


第 7.4 节 已 经 提出 将 噪声 作用 于 输入 , 作为 数据 集 增强 策略 。 对 于 某 些 模型 而 言 ， 
向 输入 添加 方差 极 小 的 噪声 等 价 于 对 权重 施加 范 数 惩罚 (Bishop, 1995a,b)。 在 一 般 情 
况 下 , 噪声 注入 远 比 简单 地 收缩 参数 强大 , 特别 是 噪声 被 添加 到 隐藏 单元 时 会 更 加 强 
大 。 回 隐藏 单元 添加 噪声 是 值得 单独 讨论 重要 的 话题 ; 在 第 7.12 节 所 述 Dropout 算 
法 是 这 种 做 法 的 主要 发 展 方向 。 

另 一 种 正则 化 模型 的 噪声 使 用 方式 是 将 其 加 到 的 权重 。 这 项 技术 主要 用 于 循环 
HAMA (Jim et al., 1996; Graves, 2011)。 这 可 以 被 解释 为 关于 权重 的 贝 叶 斯 推断 的 
随机 实现 。 贝 叶 斯 学 习 过 程 将 权重 视 为 不 确定 的 ， 并 且 可 以 通过 概率 分 布 表示 这 种 
不 确定 性 。 向 权重 添加 噪声 是 反映 这 种 不 确定 性 的 一 种 实用 的 随机 方法 。 

在 某 些 假设 下 ， 施 加 于 权重 的 噪声 可 以 被 解释 为 与 更 传统 的 正则 化 形式 等 同 ， 
鼓励 要 学 习 的 函数 保持 稳定 。 我 们 研究 回归 的 情形 ， 也 就 是 训练 将 一 组 特征 x 映射 
成 一 个 标量 的 函数 镶 z) ， 并 使 用 最 小 二 乘 代价 函 数 衡量 模型 预测 值 G(x) 与 真实 值 y 
的 误差 : 














J= En x,y) OCL) = y)’]. (7.30) 
训练 集 包含 m 对 标注 样 例 {(2,y),..., (al, y} 
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现在 我 们 假设 对 每 个 输入 表示 ， 网 络 权 重 添加 随机 扰动 ev ~ N (E0, I)o HR 
我 们 有 一 个 标准 的 1 层 MLP. RAERD feyle) KEA REA, RI 
仍然 希望 减少 网 络 输出 误差 的 平方 。 因 此 目标 函数 变 为 : 


Jw = Ep(ay.ew)|Gew(®) 一 人 7] (7.31) 
= Ey(w,y,cw) [大 (7) — 2yGYew (x) 十 y’]. (7.32) 




















对 于 小 的 7， 最 小 化 带 权 重 噪声 (方差 为 nT ) 的 J 等 同 于 最 小 化 附加 正则 化 项 
的 J: 7Ey(zw 呈 Vw (2z) 几 ]。 这 种 形式 的 正则 化 鼓励 参数 进入 权重 小 扰动 对 输出 相对 
影响 较 小 的 参数 空间 区 域 。 换 句 话 说 ， 它 推动 模型 进入 对 权重 小 的 变化 相对 不 敏感 
的 区 域 ， 找 到 的 点 不 只 是 极 小 点 ， 还 是 由 平坦 区 域 所 包围 的 最 小 点 (Hochreiter and 
Schmidhuber, 1995)。 在 简化 的 线性 回归 中 (例如; g(a) = w'z 十 5)， 正 则 项 退化 为 
7 到 za 几 z| 门 ， 这 与 函数 的 参数 无 关 ， 因 此 不 会 对 .关于 模型 参数 的 梯度 有 影响 。 


























7.5.1 ”向 输出 目标 注入 噪声 


大 多 数 数据 集 的 y 标签 都 有 一 定 错误 。 错 误 的 y 不 利于 最 大 化 log p(y | x). Wë 
免 这 种 情况 的 一 种 方法 是 显 式 地 对 标签 上 的 噪声 进行 建 模 。 例 如 , 我 们 可 以 假设 , 对 
于 一 些小 常数 e, 训练 集 标记 y 是 正确 的 概率 是 1 一 e,( A e 的 概率 ) 任何 其 他 可 能 
的 标签 也 可 能 是 正确 的 。 这 个 假设 很 容易 就 能 解析 地 与 代价 函数 结合 ， 而 不 用 显 式 
地 抽取 噪声 样本 。 例 如 ， 标 签 平 滑 (label smoothing) 通过 把 确切 分 类 目标 从 0 和 
1 替换 成 = 生 和 工 -e,， 正 则 化 具有 个 输出 的 softmax 函数 的 模型 。 标 准 交 又 炉 
损失 可 以 用 在 这 些 非 确切 目标 的 输出 上 。 使 用 softmax 函数 和 明确 目标 的 最 大 似 然 
学 习 可 能 永远 不 会 收敛 一 一 softmax 函数 永远 无 法 真正 预测 0 概率 或 1 概率 ， 因 此 
它 会 继续 学 习 越 来 越 大 的 权重 ， 使 预测 更 极端 。 使 用 如 权重 衰减 等 其 他 正则 化 策略 
能 够 防止 这 种 情况 。 标 签 平滑 的 优势 是 能 够 防止 模型 追求 确切 概率 而 不 影响 模型 学 
习 正 确 分 类 。 这 种 策略 自 20 世纪 80 年 代 就 已 经 被 使 用 ， 并 在 现代 神经 网 络 继续 保 
持 显 著 特 色 (Szegedy et al., 2015)。 

















7.6 FREF 


在 半 监 督学 习 的 框架 下 ，P(x) 产生 的 未 标记 样本 和 P(x, y) 中 的 标记 样本 都 用 
于 估计 Ply |x) 或 者 根据 x 预测 y。 
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在 深度 学 习 的 背景 下 ， 半 监督 学 习 通 稼 指 的 是 学 习 一 个 表示 h= f(e) FUR 
示 的 目的 是 使 相同 类 中 的 样本 有 类 似 的 表示 。 无 监督 学 习 可 以 为 如 何在 表示 空间 聚 
集 样 本 提供 有 用 线索 。 在 输入 空间 紧密 聚集 的 样本 应 该 被 映射 到 类 似 的 表示 。 在 许 
多 情况 下 ， 新 空间 上 的 线性 分 类 器 可 以 达到 较 好 的 泛 化 (Belkin and Niyogi, 2002; 
Chapelle et al., 2003)。 这 种 方法 的 一 个 经 典 变 种 是 使 用 主 成 分 分 析 作 为 分 类 前 (在 
投影 后 的 数据 上 分 类 ) 的 预 处 理 步 又 。 

我 们 可 以 构建 这 样 一 个 模型 ,其 中 生成 模型 P(x) 或 P(x,y) 与 判别 模型 P(y | x) 
共享 参数 ， 而 不 用 分 离 无 监督 和 监督 部 分 。 我 们 权衡 监督 模型 准则 — log Py | x) 
和 无 监督 或 生成 模型 准则 (如 — log P(x) 或 —log P(x,y) )。 生 成 模型 准则 表达 了 
对 监督 学 习 问 题解 的 特殊 形式 的 先 验 知识 (Lasserre et al., 2006)， 即 P(x) 的 结构 通 
过 某 种 共享 参数 的 方式 连接 到 P(y | x). 通过 控制 在 总 准则 中 的 生成 准则 , 我 们 可 以 
获得 比 纯 生 成 或 纯 判 别 训练 准则 更 好 的 权衡 (Lasserre et al., 2006; Larochelle et al., 
2008)。 


Salakhutdinov and Hinton (2008) 描述 了 一 种 学 习 回 归 核 机 器 中 核 函 数 的 方法 ， 
其 中 建 模 P(x) 时 使 用 的 未 标记 样本 大 大 提高 了 _P(y | x) 的 效果 。 
更 多 半 监 督学 习 的 信息 ， 请 参阅 Chapelle et al. (2006a). 














7.7 多 任务 学 习 


多 任务 学 习 (Caruana, 1993) 是 通过 合并 几 个 任务 中 的 样 例 〈 可 以 视 为 对 参数 
施加 的 软 约束 ) 来 提高 泛 化 的 一 种 方式 。 额 外 的 训练 样本 以 同样 的 方式 将 模型 的 参 
数 推 癌 泛 化 更 好 的 方向 ， 当 模型 的 一 部 分 在 任务 之 间 共 享 时 ， 模 型 的 这 一 部 分 更 多 
地 被 约束 为 良好 的 值 ( 假设 共享 是 合理 的 )， 往 往 能 更 好 地 泛 化 。 

图 7.2 展 示 了 多 任务 学 习 中 非常 普遍 的 一 种 形式 ， 其 中 不 同 的 监督 任务 ( 给 定 x 
预测 yO ) 共享 相同 的 输入 x 以 及 一 些 中 间 层 表示 hh，**)， 能 学 习 共同 的 因素 池 。 
该 模型 通常 可 以 分 为 两 类 相关 的 参数 : 





1. 具体 任务 的 参数 〈 只 能 从 各 自任 务 的 样本 中 实现 良好 的 泛 化 )。 如 图 7.2 中 的 上 
Bs 


2. 所 有 任务 共享 的 通用 参数 ( 从 所 有 任务 的 汇集 数据 中 获 益 )。 如 图 7.2 中 的 下 层 。 
因为 共享 参数 ， 其 统计 强度 可 大 大 提高 (共享 参数 的 样本 数量 相对 于 单 任务 模 
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图 7.2: 多 任务 学 习 在 深度 学 习 框 架 中 可 以 以 多 种 方式 进行 ,该 图 说 明了 任务 共享 相同 输入 但 涉及 
不 同 目标 随机 变量 的 常见 情况 。 深 度 网 络 的 较 低层 (无论 是 监督 前 馈 的 ， 还 是 包括 向 下 箭头 的 生 
成 组 件 ) 可 以 跨 这 样 的 任务 共享 ， 而 任务 特定 的 参数 ( 分 别 与 从 hO 和 ht) 进入 和 发 出 的 权重 ) 
可 以 在 共享 表示 KTD 之 上 学 习 。 这 里 的 基本 假设 是 存在 解释 输入 x 变化 的 共同 因素 池 ， 而 每 
个 任务 与 这 些 因素 的 子 集 相关 联 。 在 该 示例 中 ， 人 额外 假设 顶层 隐藏 单元 RO 和 RO 专用 于 每 个 任 
务 (APH yO Ay )， 而 一 些 中 间 层 表示 KD 在 所 有 任务 之 间 共 享 。 在 无 监督 学 习 情 
OLR, 一些 顶 层 因素 不 与 输出 任务 (AO) 的 任意 一 个 关联 是 有 意义 的 : 这 些 因素 可 以 解释 一 些 输 
入 变化 但 与 预测 yO By 不 相关 。 





















































式 增加 的 比例 )， 关 能 改善 泛 化 和 泛 化 误差 的 范围 (Baxter, 1995)。 当 然 ， 仅 当 不 同 
的 任务 之 间 存在 某 些 统计 关系 的 假设 是 合理 ( 意味 着 某 些 参数 能 通过 不 同 任务 共享 ) 
时 才 会 发 生 这 种 情况 。 

从 深度 学 习 的 观点 看 ， 底 层 的 先 验 知识 如 下 ， 能 解释 数据 变化 (在 与 之 相关 联 
的 不 同 任务 中 观察 到 ) 的 因素 中 ， 菜 些 因素 是 路 两 个 或 更 多 任务 共享 的 。 


7.8 ”提前 终止 


当 训练 有 足够 的 表示 能 力 甚至 会 过 拟 合 的 大 模型 时 ， 我 们 经 党 观察 到 ， 训 练 误 
差 会 随 着 时 间 的 推移 逐渐 降低 但 验证 集 的 误差 会 再 次 上 升 。 图 7.3 是 这 些 现象 的 一 个 
例子 ， 这 种 现象 几乎 一 定 会 出 现 。 

这 意味 着 如 果 我 们 返回 使 验证 集 误差 最 低 的 参数 设置 ， 就 可 以 获得 更 好 的 模型 
( 因此 ， 有 希望 获得 更 好 的 测试 误差 )。 在 每 次 验证 集 误差 有 所 改善 后 ， 我 们 存储 模 
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型 参数 的 副本 。 当 训练 算法 终止 时 ， 我 们 返回 这 些 参数 而 不 是 最 新 的 参数 。 当 验证 
集 上 的 误差 在 事先 指定 的 循环 次 数 内 没有 进一步 改善 时 ， 算 法 就 会 终止 。 此 过 程 在 
算法 7.1 中 有 更 正式 的 说 明 。 

这 种 策略 被 称 为 提前 终止 (early stopping )。 这 可 能 是 深度 学 习 中 最 常用 的 下 
则 化 形式 。 它 的 流行 主要 是 因为 有 效 性 和 简单 性 。 











算法 7.1 用 于 确定 最 佳 训练 时 间 量 的 提前 终止 元 算法 。 这 种 元 算法 是 一 种 通用 策略 ， 
可 以 很 好 地 在 各 种 训练 算法 和 各 种 量化 验证 集 误差 的 方法 上 工作 。 

S n 为 评估 间隔 的 步 数 。 

S p 为 “耐心 (patience)”， 即 观察 到 较 坏 的 验证 集 表现 p 次 后 终止 。 

S 0。 为 初始 参数 。 

0-90, 

i0 





j+} 0 
v 全 CO 
0 -0 
ii 
while j < p do 
运行 训练 算法 n 步 , 更 新 9 。 
i 人 7 二 nn 
vu’ © ValidationSetError(O) 
if v’ <v then 
j<0 
0-0 
wot 
Vv 
else 
7 入 7 十 | 
end if 
end while 


最 佳 参 数 为 0*， 最 佳 训练 步 数 为 i" 











我 们 可 以 认为 提前 终止 是 非常 高 效 的 超 参数 选择 算法 。 按 照 这 种 观点 ， 训 练 步 
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数 仅 是 男 一 个 超 参 数 。 我 们 从 图 7.3 可 以 看 到 , 这 个 超 参数 在 验证 集 上 具有 U 型 性 能 
曲线 。 很 多 控制 模型 容量 的 超 参数 在 验证 集 上 都 是 这 样 的 U 型 性 能 曲线 ， 如 图 7.3 。 
在 提前 终止 的 情况 下 ， 我 们 通过 拟 合 训练 集 的 步 数 来 控制 模型 的 有 效 容量 。 大 多 数 
超 参 数 的 选择 必须 使 用 高 代价 的 猜测 和 检查 过 程 ， 我 们 需要 在 训练 开始 时 猜测 一 个 
超 参 数 ， 然 后 运行 几 个 步骤 检查 它 的 训练 效果 。“ 训 练 时 间 ” 是 唯一 只要 跑 一 次 训练 
就 能 尝试 很 多 值 的 超 参 数 。 通 过 提前 终止 自动 选择 超 参数 的 唯一 显著 的 代价 是 训练 
期 间 要 定期 评估 验证 集 。 在 理想 情况 下 ， 这 可 以 并 行 在 与 主 训练 过 程 分 离 的 机 器 上 ， 
或 独立 的 CPU， 或 独立 的 GPU 上 完成 。 如 果 没 有 这 些 额 外 的 资源 ， 可 以 使 用 比 训 
练 集 小 的 验证 集 或 较 不 频繁 地 评估 验证 集 来 减 小 评估 代价 ， 较 粗略 地 估算 取得 最 佳 
的 训练 时 间 。 

男 一 个 提前 终止 的 额外 代价 是 需要 保持 最 佳 的 参数 副本 。 这 种 代价 一 般 是 可 忽 
略 的 ， 因 为 可 以 将 它 储存 在 较 慢 较 大 的 存储 器 上 《例如 , 在 GPU 内 存 中 训练 , 但 将 
最 佳 参数 存储 在 主 存储 器 或 磁盘 驱动 器 上 )。 由 于 最 佳 参 数 的 写 入 很 少 发 生 而 且 从 不 
在 训练 过 程 中 读 取 ， 这 些 偶发 的 慢 写 入 对 总 训练 时 间 的 影响 不 大 。 








e—e Training set loss 
— Validation set loss 


Loss (negative log-likelihood) 





0 50 100 150 200 250 
Time (epochs) 

















图 7.3: 学 习 曲 线 显 示 负 对 数 似 然 损失 如 何 随时 间 变 化 〈 Res ald EAE CC, Be REBT 
(epochs ) )。 在 这 个 例子 中 ,我 们 在 MNIST 上 训练 了 一 个 maxout 网 络 。 我 们 可 以 观察 到 训练 目 
标 随时 间 持 续 减 小 ， 但 验证 集 上 的 平均 损失 最 终 会 再 次 增加 ， 形 成 不 对 称 的 U 形 曲线 。 



























































提前 终止 是 一 种 非常 不 显眼 的 正则 化 形式 ， 它 几乎 不 需要 改变 基本 训练 过 程 、 
目标 函数 或 一 组 允许 的 参数 值 。 这 意味 着 ， 无 需 破坏 学 习 动 态 就 能 很 容易 地 使 用 提 
前 终止 。 相对 于 权重 衰减 ,必须 小 心 不 能 使 用 太 多 的 权重 衰减 ,以 防 网 络 陷入 不 良 局 
部 极 小 点 (对 应 于 病态 的 小 权重 )。 
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提前 终止 可 单独 使 用 或 与 其 他 的 正则 化 策略 结合 使 用 。 即 使 为 鼓励 更 好 泛 化 , 使 
用 正则 化 策略 改进 目标 函数 ， 在 训练 目标 的 局 部 极 小 点 达到 最 好 泛 化 也 是 非常 罕见 
的 。 

提前 终止 需要 验证 集 ， 这 意味 着 某 些 训练 数据 不 能 被 馈送 到 模型 。 为 了 更 好 地 
利用 这 一 额外 的 数据 ， 我 们 可 以 在 完成 提前 终止 的 首次 训练 之 后 ， 进 行 额外 的 训练 。 
在 第 二 轮 额 外 的 训练 步 又 中 ， 所 有 的 训练 数据 都 被 包括 在 内 。 有 两 个 基本 的 策略 都 
可 以 用 于 第 二 轮训 练 过 程 。 

一 个 策略 (算法 7.2 ) 是 再 次 初始 化 模型 ， 然 后 使 用 所 有 数据 再 次 训练 。 在 这 个 
第 二 轮训 练 过 程 中 ， 我 们 使 用 第 一 轮 提前 终止 训练 确定 的 最 佳 步 数 。 此 过 程 有 一 些 
细微 之 处 。 例 如 ， 我 们 没有 办 法 知道 重新 训练 时 ， 对 参数 进行 相同 次 数 的 更 新 和 对 
数据 集 进行 相同 的 遍 数 哪 一 个 更 好 。 由 于 训练 集 变 大 了 ,在 第 二 轮训 练 时 ， 每 一 次 
遍历 数据 集 将 会 更 多 次 地 更 新 参数 。 

另 一 个 策略 是 保持 从 第 一 轮训 练 获得 的 参数 ， 然 后 使 用 全 部 的 数据 继续 训练 。 
在 这 个 阶段 , 已 经 没有 验证 集 指导 我 们 需要 在 训练 多 少 步 后 终止 。 相反 , 我 们 可 以 监 
控 验 证 集 的 平均 损失 函数 ， 并 继续 训练 ， 直 到 它 低 于 提前 终止 过 程 终止 时 的 目标 值 。 
此 策略 避免 了 重新 训练 模型 的 高 成 本 ， 但 表现 并 没有 那么 好 。 例 如 ， 验 证 集 的 目标 
不 一 定 能 达到 之 前 的 目标 值 ， 所 以 这 种 策略 甚至 不 能 保证 终止 。 我 们 会 在 算法 7.3 中 
更 正式 地 介绍 这 个 过 程 。 

提前 终止 对 减少 训练 过 程 的 计算 成 本 也 是 有 用 的 。 除 了 由 于 限制 训练 的 选 代 次 
数 而 明显 减少 的 计算 成 本 ;还 带 来 了 正则 化 的 益处 (不 需要 添加 惩罚 项 的 代价 函 
数 或 计算 这 种 附加 项 的 梯度 )。 























算法 7.2 使 用 提前 终止 确定 训练 步 数 ， 然 后 在 所 有 数据 上 训练 的 元 算法 。 
令 Xeain) 和 Wai 为 训练 集 。 
将 和 sin 和 ya 分 别 分 割 为 (和 obtain)，XCaid) 和 (gy(subteain) gvalid))。 
从 随机 9 开始 ”使 用 xetan) 和 subtrain) 作为 训练 集 ， XCalid) 和 yalid) 作为 
验证 集 ， 运 行 (算法 7.1)。 这 将 返回 最 佳 训 练 步 数 六。 
将 9 再 次 设 为 随机 值 。 
在 xin) 和 (train) 上 训练 六 步 。 
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算法 7.3 使 用 提前 终止 确定 将 会 过 拟 合 的 目标 值 ， 然 后 在 所 有 数据 上 训练 直到 再 次 
达到 该 值 的 元 算法 。 

令 XY 和 rem) 为 训练 集 。 

将 X(train) 和 train) 分 别 分 割 为 Cane) xeon 和 (y(subtrain) yed), 

从 随机 0 开始 ， 使 用 xX subtrain) 和 gSubtrain) 作为 训练 集 ， xvid) 和 yid) 作为 

验证 集 ， 运 行 (算法 7.1 )。 这 会 更 新 0。 

ec J(0, eee, y(subtrain) ) 

while J(0, XV yvalid)) > e do 

在 xin) 和 y(n) 上 训练 n 步 。 


end while 











提前 终止 为 何 具有 正则 化 效果 : 目前 为 止 ， 我 们 已 经 声明 提前 终止 是 一 种 正则 化 策 
略 ， 但 我 们 只 通过 展示 验证 集 误差 的 学 习 曲 线 是 一 个 U 型 曲线 来 支持 这 种 说 法 。 
提前 终止 正则 化 模型 的 真正 机 制 是 什么 呢 ? Bishop (1995a) 和 Sjöberg and Ljung 
(1995) 认为 提前 终止 可 以 将 优化 过 程 的 参数 空间 限制 在 初始 参数 值 6 的 小 邻 域 内 。 
更 具体 地 ， 想 象 用 学 习 率 e 进行 7 个 优化 步骤 (对 应 于 r 个 训练 迁 代 )。 我 们 可 以 
将 er 作为 有 效 容量 的 度量 。 假 设 梯 度 有 界 ， 限 制 迭 代 的 次 数 和 学 习 速 率 能 够 限制 从 
0o 到 达 的 参数 空间 的 大 小 ， 如 图 7.4 所 示 。 在 这 个 意义 上 ，er 的 效果 就 好 像 是 权重 
衰减 系数 的 倒数 。 

事实 上 , 在 二 次 误差 的 简单 线性 模型 和 简单 的 梯度 下 降 情 况 下 , 我 们 可 以 展示 提 
前 终止 相当 于 LEWE. 

为 了 与 经 典 瑚 正则 化 比较 ， 我 们 只 考察 唯一 的 参数 是 线性 权重 (9 = w) 的 简 
单 情 形 。 我 们 在 权重 w 的 经 验 最 佳 值 w* 附近 以 二 次 近似 建 模 代价 函数 J: 














JO) = Jw) + E(w- w) Hw- w’), (7.33) 


其 中 H Æ J KF wH w* 点 的 Hessian。 鉴 于 假设 w 是 J(w) 的 最 小 点 ， 我 们 知 
道 H 为 半 正 定 。 在 局 部 泰勒 级 数 逼 近 下 ， 梯 度 由 下 式 给 出 : 


Vwi (w) = H(w— u”). (7.34) 
接 下 来 我 们 研究 训练 时 参数 向 量 的 轨迹 。 为 简化 起 见 ， 我 们 将 参数 向 量 初始 化 


为 原点 ?3， 也 就 是 w = 0。 我 们 通过 分 析 了 上 的 梯度 下 降 来 研究 J 上 近似 的 梯度 
?对 于 神经 网 络 ， 我 们 需要 打破 隐藏 单 元 间 的 对 称 平衡 因此 不 能 将 所 有 参数 都 初始 化 为 0 ( 如 第 6.2 节 所 讨论 的 )。 
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w2 








图 7.4: 提前 终止 效果 的 示意 图 。( 左 ) 实 线 轮廓 线 表示 负 对 数 似 然 的 轮廓 。 虚 线 表 示 从 原点 开始 
的 SGD 所 经 过 的 轨迹 。 提 前 终止 的 轨迹 在 较 早 的 点 忆 处 停止 ， 而 不 是 停止 在 最 小 化 代价 的 点 w” 
处 。( 右 ) 为 了 对 比 , 使 用 局 正则 化 效果 的 示意 图 。 虚 线 圆圈 表示 L? 惩罚 的 轮廓 ，L? 惩罚 使 得 总 




















代价 的 最 小 值 比 非 正则 化 代价 的 最 小 值 更 靠近 原点 。 
下 降 的 效果 : 
w = wl) — VS (wD) (7.35) 
= wi) — Hw) — u"), (7.36) 
w — u” = (I — «H)(w"-) — u"). (7.37) 





现在 让 我 们 在 互 特征 向 量 的 空间 中 改写 表达 式 , 利用 H 的 特征 分 解 : H= QAQ", 
其 中 A 是 对 角 和 矩阵 ，@ 是 特征 向 量 的 一 组 标准 正 交 基 。 
w — wi = (I- eQAQ™) (we) — w*) (7.38) 
Q (wW — w*) = (I- eA) Q! (wW — w*) (7.39) 
假定 w = 0 并 且 e 选择 得 足够 小 以 保证 |1 - eXi| < 1， 经 过 r 次 参数 更 新 后 轨迹 
如 下 : 








Q um = [I- (I- A)"]Q' w (7.40) 
现在 ,， 式 (7.13) 中 Q' D 的 表达 式 能 被 重 写 为 : 

Q'w=(A+al AQ' u”, (7.41) 

Q'w=([I- (A+aD iaQ' wu". (7.42) 








然而 ， 对 于 其 他 任何 初始 值 weo) 该 论证 都 成 立 
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比较 式 (7.40) 和 式 (7.42) ， 我 们 能 够 发 现 ， 如 果 超 参数 ec 和 7 满足 如 下 : 
(I— AY = (A+aD a, (7.43) 


那么 L? 正则 化 和 权重 衰减 可 以 被 看 作 是 等 价 的 (至少 在 目标 函数 的 二 次 近似 下 )。 
进一步 取 对 数 ， 使 用 log (1 +z) 的 级 数 展开 ， 我们 可 以 得 出 结论 : 如 果 所 有 A; 是 
JV CB eA K 1H àa), 那么 


1 
=~ — .44 
CR (Ai 
: (7.45) 
ar —. é 
TE 


也 就 是 说 ， 在 这 些 假设 下 ， 训 练 迭 代 次 数 7 起 着 与 L 参数 成 反比 的 作用 ，re 的 倒 
数 与 权重 衰减 系数 的 作用 类 似 。 

对 应 显著 曲率 ( 目标 函数 ) 方向 的 参数 值 正则 化 小 于 小 曲率 方向 。 当 然 ， 在 提 
前 终止 的 情况 下 ， 这 实际 上 意味 着 对 应 于 显著 曲率 方向 的 参数 比较 小 的 曲率 方向 的 
参数 更 早 地 停止 学 习 。 

本 节 中 的 推导 表明 长 度 为 7 的 轨迹 结束 于 天正 则 化 目标 的 极 小 点 。 当 然 ， 提 前 
终止 比 简单 的 轨迹 长 度 限制 更 丰富 ; 相反 ,提前 终止 通常 涉及 监控 验证 集 误差 , 以便 
在 空间 特别 好 的 点 处 终止 轨迹 。 因 此 提前 终止 比 权重 衰减 更 具有 优势 ， 提 前 终止 能 
自动 确定 正则 化 的 正确 量 ， 而 权重 衰减 需要 多 个 训练 实验 测试 其 超 参 数 的 不 同 值 。 








7.9 ”参数 绑 定 和 参数 共享 


目前 为 止 ， 本 章 讨论 对 参数 添加 约束 或 惩罚 时 ， 一 直 是 相对 于 固定 的 区 域 或 点 。 
例如 ， 玫 正则 化 《或 权重 衰减 ) 对 参数 偏离 零 的 固定 值 进行 惩罚 。 然 而 ， 有 时 我 们 
可 能 需要 其 他 的 方式 来 表达 我 们 对 模型 参数 适当 值 的 先 验 知识 。 有 时 候 ， 我 们 可 能 
无 法 准确 地 知道 应 该 使 用 什么 样 的 参数 ， 但 我 们 根据 领域 和 模型 结构 方面 的 知识 得 
知 模型 参数 之 间 应 该 存在 一 些 相关 性 。 

我 们 经 常 想 要 表达 的 一 种 常见 依赖 是 某 些 参数 应 当 彼此 接近 。 考 虑 以 下 情形 : 
我 们 有 两 个 模型 执行 相同 的 分 类 任务 〈 具有 相同 类 别 )， 但 输入 分 布 稍 有 不 同 。 形 式 
地 ， 我 们 有 参数 为 wt 的 模型 A 和 参数 为 w( 引 的 模型 B。 这 两 种 模型 将 输入 映射 
到 两 个 不 同 但 相关 的 输出 : HAO = f(w), 2) WM oP = fw, 2). 
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我 们 可 以 想象 ， 这 些 任 务 会 足够 相似 (或许 具 有 相似 的 输入 和 输出 分 布 ) ， 因 
此 我 们 认为 模型 参数 应 彼此 靠近 : Vi,w 应 该 与 w 接近 。 我们 可 以 通过 正则 
化 利用 此 信息 。 具 体 来 说 , 我 们 可 以 使 用 以 下 形式 的 参数 范 数 惩罚 : O(w, we) = 
aoc — ax 上。 在 这 里 我 们 使 用 L 惩罚 ， 但 也 可 以 使 用 其 他 选择 。 

这 种 方法 由 Lasserre et al. (2006) 提出 ， 正 则 化 一 个 模型 (监督 模式 下 训练 的 分 
ak ) 的 参数 ， 使 其 接近 另 一 个 无 监督 模式 下 训练 的 模型 ( 捕捉 观察 到 的 输入 数据 
的 分 布 ) 的 参数 。 这 种 构造 架构 使 得 许多 分 类 模型 中 的 参数 能 与 之 对 应 的 无 监督 模 
型 的 参数 匹配 。 

参数 范 数 惩罚 是 正则 化 参数 使 其 彼此 接近 的 一 种 方式 ， 而 更 流行 的 方法 是 使 用 
约束 : 强迫 某 些 参数 相等 。 由 于 我 们 将 各 种 模型 或 模型 组 件 解释 为 共享 唯一 的 一 组 
参数 ， 这 种 正则 化 方法 通常 被 称 为 参数 共享 ( parameter sharing )。 和 正则 化 参数 使 
其 接近 ( 通过 范 数 惩罚 ) 相 比 ,参数 共享 的 一 个 显著 优点 是 ， 只 有 参数 ( 唯一 一 个 集 
R) 的 子 集 需要 被 存储 在 内 存 中 。 对 于 某 些 特定 模型 ， 如 卷 积 神经 网 络 ， 这 可 能 可 
以 显著 减少 模型 所 占用 的 内 存 。 

















7.9.1 “ 卷 积 神经 网 络 


目前 为 止 ， 最 流行 和 广泛 使 用 的 参数 共享 出 现在 应 用 于 计算 机 视觉 的 卷 积 神经 
网 络 (CNN) 中 。 自 然 图 像 有 许多 统计 属性 是 对 转换 不 变 的 。 例 如 ， 猫 的 照片 即使 
向 右边 移 了 一 个 像素 ， 仍 保持 猫 的 照片 。CNN 通 过 在 图 像 多 个 位 置 共享 参数 来 考虑 
这 个 特性 。 相 同 的 特征 (具有 相同 权重 的 隐藏 单元 ) 在 输入 的 不 同位 置 上 计算 获得 。 
这 意味 着 无 论 猫 出 现在 图 像 中 的 第 i 列 或 i 十 1 列 , 我 们 都 可 以 使 用 相同 的 猫 探测 器 
TREN o 

参数 共享 显著 降低 了 CNN 模 型 的 参数 数量 ， 并 显著 提高 了 网 络 的 大 小 而 不 需要 
相应 地 增加 训练 数据 。 它 仍然 是 将 领域 知识 有 效 地 整合 到 网 络 架 构 的 最 佳 范例 之 一 。 

我 们 将 会 在 第 九 章 中 更 详细 地 讨论 卷 积 神经 网 络 。 


7.10 RARA 


前 文 所 述 的 权重 衰减 直接 惩罚 模型 参数 。 男 一 种 策略 是 惩罚 神经 网 络 中 的 激活 
单元 ， 稀 玻 化 激活 单元 。 这 种 策略 间接 地 对 模型 参数 施加 了 复杂 惩罚 。 
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我 们 已 经 讨论 过 (在 第 7.1.2 节 中 ) Li! 惩罚 如 何 诱导 稀 琉 的 参数 ， 即 许多 参数 为 
F (或 接近 于 零 )。 表 示 的 稀 丽 ， 在 另 一 方面 描述 了 许多 元 素 是 零 〈 或 接近 零 ) 的 表 
示 。 我 们 可 以 线性 回归 的 情况 下 简单 说 明 这 种 区 别 : 




















2 
18 40 0 =2 0 0 |? 
5 0 0 -1 0 3 0 | j 
15}=10 5 0 0 0 0 a (7.46) 
一 9 1 0 0 -1 0 -4 i 
=3 10 0 0 -5 0 
y E R™ A g Rrx? 4 
x E€ R” 
0 
—14 -1 2 AQ4 1 
1 4 2 -3 -1 3 i 
19 |=|-1 5 4 2 -3 -2 i (7.47) 
2 3 Wa? -3 0 -3 4 
23 -5 4\ a -5 -1 
y E R™ B E Rmx” 
he R?” 


Fi — ERIK ES A IA VE TRR ATF OP RATE RUE z 具 
AMAR h 的 线性 回归 。 也 就 是 说 , h 是 x 的 一 个 函数 ， 在 某 种 意义 上 表示 存在 
于 z 中 的 信息 ， 但 只 是 用 一 个 稀 玻 向 量 表示 。 

表示 的 正则 化 可 以 使 用 参数 正则 化 中 同 种 类 型 的 机 制 实现 。 

表示 的 范 数 惩罚 正则 化 是 通过 向 损失 函数 7 添加 对 表示 的 范 数 惩罚 来 实现 的 。 
我 们 将 这 个 惩罚 记 作 Q( 及 。 和 以 前 一 样 ， 我 们 将 正则 化 后 的 损失 函数 记 作 J: 








J(0; X, y) = J(0; X, y) + aQX(h), (7.48) 





其 中 a € [0,00] 权衡 范 数 惩罚 项 的 相对 贡献 ， 越 大 的 a 对 应 越 多 的 正则 化 。 

正如 对 参数 的 L ESTAS SE, IERRA L 惩罚 诱导 稀 琉 的 表示 : 
Q(h) = lhl = do, hilo SA Lt 惩罚 是 使 表示 稀疏 的 方法 之 一 。 其 他 方法 还 包括 
从 表示 上 的 Student-t 先 验 导出 的 惩罚 (Olshausen and Field, 1996; Bergstra, 2011) 
和 KL 散 度 惩罚 (Larochelle and Bengio, 2008a) 有 利于 表示 元 素 约束 于 单位 区 间 上 。 
Lee et al. (2008) 和 Goodfellow et al. (2009) 都 提供 了 正则 化 几 个 样本 平均 激活 的 例 
子 ， 即 令 2, hO 接近 某 些 目标 值 ( 如 每 项 都 是 .01 的 向 量 )。 
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还 有 一 些 其 他 方法 通过 激活 值 的 硬性 约束 来 获得 表示 稀 琉 。 例 如 ， 正 交 匹 配 追 
Ex (orthogonal matching pursuit)(Pati et al., 1993) 通过 解决 约束 优化 问题 将 输入 值 
2 编码 成 表示 h 
argmin ||æ — Whl|? , (7.49) 
h,||hllo <k 
其 中 |A 是 h PSPS. 5 WARNE, RATA er Re 
问题 。 这 种 方法 通常 被 称 为 OMP-K， 通 过 k 指定 允许 的 非 零 特征 数量 。Coates and 
Ng (2011) 证 明 OMP-1 可 以 成 为 深度 架构 中 非常 有 效 的 特征 提取 器。 
含有 隐藏 单元 的 模型 在 本 质 上 都 能 变 得 稀 琉 。 在 本 书 中 ， 我 们 将 看 到 在 各 种 情 
况 下 使 用 稀 玻 正则 化 的 例子 。 


7.11 Bagging 和 其 他 集成 方法 


Bagging (bootstrap aggregating ) 是 通过 结合 儿 个 模型 降低 泛 化 误差 的 技术 
(Breiman，1994)。 主 要 想法 是 分 别 训练 几 个 不 同 的 模型 ， 然 后 让 所 有 模型 表决 测 
试 样 例 的 输出 。 这 是 机 器 学 习 中 常规 策略 的 一 个 例子 ， 被 称 为 模型 平均 (model 
averaging )。 采 用 这 种 策略 的 技术 被 称 为 集成 方法 。 

模型 平均 (model averaging ) 奏效 的 原因 是 不 同 的 模型 通常 不 会 在 测试 集 上 产 
生 完 全 相同 的 误差 。 

假设 我 们 有 个 回归 模型 。 假 设 每 个 模型 在 每 个 例子 上 的 误差 是 e;， 这 个 误差 
服从 零 均值 方差 为 Elé] = v 且 协 方差 为 Elec] = c 的 多 维 正 态 分 布 。 通 过 所 有 集 
成 模型 的 平均 预测 所 得 误差 是 >), e;。 集 成 预测 器 平方 误差 的 期 望 是 


leeke] e 


i j#i 
1 k-1 

sai + 天 
在 误差 完全 相关 即 c = v 的 情况 下 ， 均 方 误差 减少 到 v， 所 以 模型 平均 没有 任何 帮 
助 。 在 错误 完全 不 相关 即 c = 0 的 情况 下， 该 集成 平方 误差 的 期 望 仅 为 iw。 这 意味 
着 集成 平方 误差 的 期 望 会 随 着 集成 规模 增 大 而 线性 减 小 。 换 言 之 ,集成 平均 至 少 与 
它 的 任何 成 员 表 现 得 一 样 好 ， 并 且 如 果 成 员 的 误差 是 独立 的 ， 集 成 将 显著 地 比 其 成 
员 表 现 得 更 好 。 



























































c. (7.51) 
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不 同 的 集成 方法 以 不 同 的 方式 构建 集成 模型 。 例 如 ， 集 成 的 每 个 成 员 可 以 使 用 
不 同 的 算法 和 目标 函数 训练 成 完全 不 同 的 模型 。Bagging 是 一 种 允许 重复 多 次 使 用 同 
一 种 模型 、 训 练 算法 和 目标 函数 的 方法 。 

具体 来 说 ，Bagging 涉 及 构造 个 不 同 的 数据 集 。 每 个 数据 集 从 原始 数据 集中 重 
复 采样 构成 ， 和 原始 数据 集 具 有 相同 数量 的 样 例 。 这 意味 着 ， 每 个 数据 集 以 高 概率 
缺少 一 些 来 自 原始 数据 集 的 例子 ， 还 包含 若干 重复 的 例子 〈 如 果 所 得 训练 集 与 原始 
数据 集 大 小 相同 ， 那 所 得 数据 集中 大 概 有 原始 数据 集 2/3 的 实例 ) 模型 i 在 数据 集 
i 上 训练 。 每 个 数据 集 所 含 样 本 的 差异 导致 了 训练 模型 之 间 的 差异 。 图 7.5 是 一 个 例 
子 。 





Original dataset 


DOD 


First resampled dataset 


DOA >O>0) 


Second resampled dataset Second ensemble member 


DOO > O>) 


图 7.5: 描述 Bagging 如 何 工 作 的 草图 。 假 设 我 们 在 上 述 数 据 集 (包含 一 个 8, 一 个 6 和 一 个 9) 上 
训练 数字 8 的 检测 器 。 假 设 我 们 制作 了 两 个 不 同 的 重 采样 数据 集 。Bagging 训 | 练 程序 通过 蔡 换 采样 
构建 这 些 数据 集 。 第 一 个 数据 集 忽略 9 并 重复 8。 在 这 个 数据 集 上 ， 检 测 器 得 知 数字 项 部 有 一 个 
环 就 对 应 于 一 个 8。 第 二 个 数据 集中 ,我 们 忽略 6 并 重复 9。 在 这 种 情况 下 ， 检 测 器 得 知 数字 底部 
有 一 个 环 就 对 应 于 一 个 8。 这 些 单独 的 分 类 规则 中 的 每 一 个 都 是 不 可 靠 的 , 但 如 果 我 们 平均 它们 的 
输出 ， 就 能 得 到 和 鲁 棒 的 检测 器 ， 只 有 当 8 的 两 个 环 都 存在 时 才能 实现 最 大 置信 和 度 。 


First_ensemble member 
























































神经 网 络 的 解 能 达到 足够 多 的 变化 意味 着 他 们 可 以 从 模型 平均 中 受益 (即使 所 
有 模型 都 在 同一 数据 集 上 训练 )。 神 经 网 络 中 随机 初始 化 的 差异 、 小 批量 的 随机 选择 、 
超 参 数 的 差异 或 不 同 输出 的 非 确 定性 实现 往往 足以 使 得 集成 中 的 不 同 成 员 具 有 部 分 
独立 的 误差 。 

模型 平均 是 一 个 减少 泛 化 误差 的 非常 强大 可 靠 的 方法 。 在 作为 科学 论文 算法 的 
基准 时 ， 它 通常 是 不 鼓励 使 用 的 ， 因 为 任何 机 器 学 习 算 法 都 可 以 从 模型 平均 中 大 幅 
获 益 《以 增加 计算 和 存储 为 代价 )。 
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PLAE J FEFE P AOPE A E HE LT PRAT. et“ 
突出 的 例子 是 Netflix Grand Prize(Koren, 2009). 

不 是 所 有 构建 集成 的 技术 都 是 为 了 让 集成 模型 比 单一 模型 更 加 正则 化 。 例如 , 一 
种 被 称 为 Boosting ( Boosting ) 的 技术 (Freund and Schapire, 1996b,a) 构建 比 单个 
模型 容量 更 高 的 集成 模型 。 通 过 向 集成 逐步 添加 神经 网 络 ，Boosting 已 经 被 应 用 于 构 
建 神经 网 络 的 集成 (Schwenk and Bengio, 1998)。 通 过 逐渐 增加 神经 网 络 的 隐藏 单元 ， 
Boosting 也 可 以 将 单个 神经 网 络 解释 为 一 个 集成 。 


7.12 Dropout 


Dropout (Dropout ) (Srivastava et al., 2014) 提供 了 正则 化 一 大 类 模型 的 方 
法 ,计算 方便 但 功能 强大 。 在 第 一 种 近似 下 ，Dropout 可 以 被 认为 是 集成 大 量 深层 神 
经 网 络 的 实用 Bagging 方 法 。Bagging 涉 及 训练 多 个 模型 ， 并 在 每 个 测试 样本 上 评估 
多 个 模型 。 当 每 个 模型 都 是 一 个 很 大 的 神经 网 络 时 ， 这 似乎 是 不 切实 际 的 ， 因 为 训 
练 和 评估 这 样 的 网 络 需 要 花费 很 多 运行 时 间 和 和 内存。 通常 我 们 只 能 集成 五 至 十 个 神 
经 网 络 ， 如 Szegedy et al. (2014a) 集 成 了 六 个 神经 网 络 赢得 ILSVRC， 超 过 这 个 数量 
就 会 迅速 变 得 难以 处 理 。Dropout 提 供 了 一 种 廉价 的 Bagging 集 成 近似 ， 能 够 训练 和 
评估 指数 级 数量 的 神经 网 络 。 

具体 而 言 ，Dropout 训 练 的 集成 包括 所 有 从 基础 网 络 除 去 非 输出 单元 后 形成 的 子 
网 络 ， 如 图 7.6 所 示 。 最 先进 的 神经 网 络 基 于 一 系列 仿 射 变换 和 非 线 性 变换 ， 我 们 只 
需 将 一 些 单元 的 输出 乘 零 就 能 有 效 地 删除 一 个 单元 。 这 个 过 程 需 要 对 模型 (如 径 向 
基 沙 数 网 络 ， 单 元 的 状态 和 参考 值 之 间 存 在 一 定 区 别 ) 进行 一 些 修 改 。 为 了 简单 起 
见 ， 我 们 在 这 里 提出 乘 零 的 简单 Dropout 算 法 ， 但 是 它 被 简单 修改 后 ， 可 以 与 从 网 络 
中 移 除 单元 的 其 他 操作 结合 使 用 。 

回想 一 下 Bagging 学 习 ， 我 们 定义 天 个 不 同 的 模型 ， 从 训练 集 有 替换 采样 构造 
k 个 不 同 的 数据 集 ， 然 后 在 训练 集 i 上 训练 模型 i。Dropout 的 目标 是 在 指数 级 数 
量 的 神经 网 络 上 近似 这 个 过 程 。 有 具体 来 说 ， 在 训练 中 使 用 Dropout 时 ， 我 们 会 使 用 
基于 小 批量 的 学 习 算 法 和 较 小 的 步 长 ， 如 梯度 下 降 等 。 我 们 每 次 在 小 批量 中 加 载 一 
个 样本 ， 然 后 随机 抽样 应 用 于 网 络 中 所 有 输入 和 隐藏 单元 的 不 同 二 值 掩 码 。 对 于 每 
个 单元 ， 掩 人 码 是 独立 采样 的 。 掩 码 值 为 1 的 采样 概率 ( 导致 包含 一 个 单元 ) 是 训练 
开始 前 一 个 固定 的 超 参数 。 它 不 是 模型 当前 参数 值 或 输入 样本 的 函数 。 通 常 在 每 一 
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Ensemble of subnetworks 











图 7.6: Dropout 训 练 由 所 有 子 网 络 组 成 的 集成 ， 其 中 子 网 络 通过 从 基本 网 络 中 删除 非 输出 单元 构 
建 。 我 们 从 具有 两 个 可 见 单元 和 两 个 隐藏 单元 的 基本 网 络 开始 。 这 四 个 单元 有 十 六 个 可 能 的 子 集 。 
右 图 展示 了 从 原始 网 络 中 丢弃 不 同 的 单元 子 集 而 形成 的 所 有 十 六 个 子 网 络 。 在 这 个 小 例子 中 ， 所 
得 到 的 大 部 分 网 络 没有 输入 单元 或 没有 从 输入 连接 到 输出 的 路 径 。 当 层 较 宽 时 ， 丢 弃 所 有 从 输入 
到 输出 的 可 能 路 径 的 概率 变 小 ， 所 以 这 个 问题 不 太 可 能 在 出 现 层 较 宽 的 网 络 中 。 






























































个 小 批量 训练 的 神经 网 络 中 ， 一 个 输入 单元 被 包括 的 概率 为 0.8， 一 个 隐藏 单元 被 包 

括 的 概率 为 0.5。 然 后， 我 们 运行 和 之 前 一 样 的 前 向 传播 、 反 问 传 播 以 及 学 习 更 新 。 

图 7.7 说 明了 在 Dropout 下 的 前 向 传播 。 

更 正式 地 说 , 假设 一 个 掩 人 码 向 量 j 指定 被 包括 的 单元 ,J(0, u) 是 由 参数 9 AE 

码 u 定义 的 模型 代价 。 那么 Dropout 训 练 的 目标 是 最 小 化 EE,,J(0, u) HEBEL 
旨 数 级 的 项 ， 但 我 们 可 以 通过 抽样 jy 获得 梯度 的 无 偏 估计 。 

Dropout 训 练 与 Bagging 训 | 练 不 太一 样 。 在 Bagging 的 情况 下 ， 所 有 模型 都 是 独立 
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图 7.7: 在 使 用 Dropout 的 前 馈 网 络 中 前 向 传播 的 示例 。( 顶 部 ) 在 此 示例 中 , 我 们 使 用 具有 两 个 输入 
单元 , 具有 两 个 隐藏 单元 的 隐藏 层 以 及 一 个 输出 单元 的 前 馈 网 络 。( 底 部 ) 为 了 执行 具有 Dropout 的 
前 向 传播 ， 我 们 随机 地 对 向 量 /进行 采样 ， 其 中 网 络 中 的 每 个 输入 或 隐藏 单元 对 应 一 项 。A 中 的 
每 项 都 是 二 值 的 且 独 立 于 其 他 项 采样 。 超 参数 的 采样 概率 为 1， 隐 藏 层 的 采样 概率 通常 为 0.5， 输 
入 的 采样 概率 通常 为 0.8。 网 络 中 的 每 个 单元 乘 以 相应 的 掩 码 ， 人 然后 正常 地 继续 沿 着 网 络 的 其 余部 
分 前 向 传播 。 这 相当 于 从 图 7.6 中 随机 选择 一 个 子 网 络 并 沿 着 前 向 传播 。 










































































的 。 在 Dropout 的 情况 下 ， 所 有 模型 共享 参数 ， 其 中 每 个 模型 继承 父 神经 网 络 参数 
的 不 同 子 集 。 参 数 共享 使 得 在 有 限 可 用 的 内 存 下 表示 指数 级 数量 的 模型 变 得 可 能 。 
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在 Bagging 的 情况 下 ， 每 一 个 模型 在 其 相应 训练 集 上 训练 到 收敛 。 在 Dropout 的 情况 
下 ， 通 常 大 部 分 模型 都 没有 显 式 地 被 训练 ， 因 为 通常 父 神经 网 络 会 很 大 ， 以 致 于 到 
宇宙 毁灭 都 不 可 能 采样 完 所 有 的 子 网 络 。 取 而 代 之 的 是 ， 在 单个 步骤 中 我 们 训练 一 
小 部 分 的 子 网 络 ， 参 数 共享 会 使 得 剩余 的 子 网 络 也 能 有 好 的 参数 设 定 。 这 些 是 仅 有 
的 区 别 。 除 了 这 些 ，Dropout 与 Bagging 算 法 一 样 。 例 如 ， 每 个 子 网 络 中 遇 到 的 训练 
集 确实 是 替换 采样 的 原始 训练 集 的 一 个 子 集 。 

Bagging 集 成 必须 根据 所 有 成 员 的 累积 投票 做 一 个 预测 。 在 这 种 背景 下 ， 我 们 
将 这 个 过 程 称 为 推断 (inference )。 目 前 为 止 ， 我 们 在 介绍 Bagging 和 Dropout 时 没 
有 要 求 模型 具有 明确 的 概率 。 现 在 ， 我 们 假定 该 模型 的 作用 是 输出 一 个 概率 分 布 。 
在 Bagging 的 情况 下 ， 每 个 模型 i 产生 一 个 概率 分 布 p(y | z)。 集 成 的 预测 由 这 些 
分 布 的 算术 平均 值 给 出 ， 


ie wia. (7:52) 


在 Dropout 的 情况 下 ， 通 过 掩 码 jy 定义 每 个 子 模型 的 概率 分 布 p(y | a). H 
有 捧 码 的 算术 平均 值 由 下 式 给 出 


So p(u)ply | æ, n), (7.53) 


H 


其 中 p(w) 是 训练 时 采样 jv 的 概率 分 布 。 

因为 这 个 求 和 包含 多 达 指 数 级 的 项 ， 除 非 该 模型 的 结构 允许 某 种 形式 的 简化 ， 
否则 是 不 可 能 计算 的 。 目 前 为 止 ， 无 法 得 知 深度 神经 网 络 是 否 人 允许 某 种 可 行 的 简化 。 
相反 ， 我 们 可 以 通过 采样 近似 推断 ， 即 平均 许多 掩 码 的 输出 。 即 使 是 10 — 20 Mit 
码 就 足以 获得 不 错 的 表现 。 

然而 ， 一 个 更 好 的 方法 能 不 错 地 近似 整个 集成 的 预测 ， 且 只 需 一 个 前 向 传播 
的 代价 。 要 做 到 这 一 点 ， 我 们 改 用 集成 成 员 预 测 分 布 的 几何 平均 而 不 是 算术 平均 。 
Warde-Farley et al. (2014) 提出 的 论点 和 经 验证 据 表 明 ， 在 这 个 情况 下 几何 平均 与 
算术 平均 表现 得 差不多 。 

多 个 概率 分 布 的 几何 平均 不 能 保证 是 一 个 概率 分 布 。 为 了 保证 结果 是 一 个 概率 
分 布 ， 我 们 要 求 没 有 子 模型 给 某 一 事件 分 配 概率 0， 并 重新 标准 化 所 得 分 布 。 通 过 几 
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何平 均 直 接 定 义 的 非 标准 化 概率 分 布 由 下 式 给 出 


Pensemblel yY | x LT y | T, H), (7.54) 


其 中 d 是 可 被 丢弃 的 单元 数 。 这 里 为 简化 介绍 ， 我 们 使 用 均匀 分 布 的 由， 但 非 均匀 
分 布 也 是 可 以 的 。 为 了 作出 预测 ， 我 们 必须 重新 标准 化 集成 : 











) = Bensemble (Y | zx) (7.55) 


Pensemble (y | T 一 F 
> Bensemble(Y' | x) 


涉及 Dropout 的 一 个 重要 观点 (Hinton et al., 2012b) 是 , 我 们 可 以 通过 评估 模型 
中 p(y | x) 来 近似 pensemble: 该 模型 具有 所 有 单元 ， 但 我 们 将 模型 的 权重 修改 为 和 单 
元 i 的 概率 的 乘积 。 这 个 修改 的 动机 是 得 到 从 该 单元 输出 的 正确 期 望 值 。 我 们 把 这 
种 方法 称 为 权重 比例 推断 规则 (weight scaling inference rule )。 目 前 还 没有 在 深度 
非 线 性 网 络 上 对 这 种 近似 推断 规则 的 准确 性 作 任何 理论 分 析 ， 但 经 验 上 表现 得 很 好 。 

因为 我 们 通常 使 用 3 的 包含 概率 ， 权 重 比例 规则 一 般 相 当 于 在 训练 结束 后 将 权 
重 除 2, 然后 像 平常 一 样 使 用 模型 。 实 现 相同 结果 的 另 一 种 方法 是 在 训练 期 间 将 单元 
的 状态 乘 2。 无 论 哪 种 方式 , 我 们 的 目标 是 确保 在 测试 时 一 个 单元 的 期 望 总 输入 与 在 
训练 时 该 单元 的 期 望 总 输入 是 大 致 相同 的 ( 即使 近 半 单位 在 训练 时 丢失 )。 

对 许多 不 具有 非 线 性 隐藏 单元 的 模型 族 而 言 ， 权 重 比 例 推断 规则 是 精确 的 。 举 
个 简单 的 例子 ， 考 虑 softmax 函数 回归 分 类 ， 其 中 由 向 量 v 表示 n 个 输入 变量 : 





P(y = y | v) =softmax(W'v + b) (7.56) 

我 们 可 以 根据 二 值 向 量 d 逐 元 素 的 乘法 将 一 类 子 模型 进行 索引 : 
P(y = y | v; d) = softmax(W' (dO v) + b). (7.57) 

集成 预测 需 被 定义 为 重新 标准 化 所 有 集成 成 员 预 测 的 几何 平均 : 


Pt 人 (人 =y | v) 
D 上 (y = y | v) 





(7.58) 





Psisembie(¥ = y | v) = 


` 
+ 





Psempble(y = y | v) = n II Ply =y | V; d). (7.59) 
de{0,1}” 
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为 了 证 明 权 重 比例 推断 规则 是 精确 的 ’ 我 们 简化 Ponpie: 


























Psemple(y =y | v) = gn II Ply =y | V; d) (7.60) 

de{0,1}™ 
= gn II softmax( W' (d© v) + b) (7.61) 

de{0,1}” 
国 exp( W} (do v) + by) (7.62) 
de{0,1}" Diy exp( Wy (dO v) + by) 
a exp( W; (dO v) + by) (7.63) 
K Lacto} ji exp( W, (do v) + by) l 
由 于 P 将 被 标准 化 ， 我 们 可 以 放心 地 忽略 那些 相对 y 不 变 的 乘法 : 
Pensembie(y = y| v) anf J] exp(Wy,.(d@ v) + by) (7.64) 
de{0,1}” 
1 

= exp 和 2 (do v) + 可 (7.65) 

de {0,1}” 

1 

= exp (5 Wiv4 by). (7.66) 





将 其 代入 式 (7.58) ， 我 们 得 到 了 一 个 权重 为 tW 的 softmax 函数 分 类 器 。 

权重 比例 推断 规则 在 其 他 设 定 下 也 是 精确 的 ， 包 括 条 件 正 态 输出 的 回归 网 络 以 
及 那些 隐藏 层 不 包含 非 线 性 的 深度 网 络 。 然 而 ， 权 重 比 例 推 断 规则 对 具有 非 线 性 的 
深度 模型 仅仅 是 一 个 近似 。 虽 然 这 个 近似 尚未 有 理论 上 的 分 析 ， 但 在 实践 中 往往 效 
AAR. Goodfellow et al. (2013b) 实验 发 现 ， 集 成 预测 权重 比例 推断 规则 比 蒙 特 卡 
罗 近 似 的 效果 更 好 (在 分 类 精度 方面 )。 即 使 允许 蒙特 卡 罗 近 似 采 样 多 达 1000 子 网 
络 时 也 比 不 过 集成 。Gal and Ghahramani (2015) 发 现 一 些 模 型 可 以 通过 二 十 个 样本 
和 蒙特 卡 罗 近 似 获 得 更 好 的 分 类 精度 。 似 乎 推断 近似 的 最 佳 选择 是 与 问题 相关 的 。 

Srivastava et al. (2014) 显示 ，Dropout 比 其 他 标准 的 计算 开销 小 的 正则 化 方法 
(如 权重 衰减 、 过 滤器 范 数 约束 和 稀 玻 激活 的 正则 化 ) 更 有 效 。Dropout 也 可 以 与 其 
他 形式 的 正则 化 合并 ， 得 到 进一步 的 提升 。 

计算 方便 是 Dropout 的 一 个 优点 。 训 练 过 程 中 使 用 Dropout 产 生 n 个 随机 二 进 制 
数 与 状态 相 乘 ， 每 个 样本 每 次 更 新 只 需 O(n) 的 计算 复杂 度 。 根 据 实现 ,也 可 能 需要 
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O(n) 的 存储 空间 来 持续 保存 这 些 二 进 制 数 ( 直到 反 向 传播 阶段 )。 使 用 训练 好 的 模 
型 推 亲 时， 计算 每 个 样本 的 代价 与 不 使 用 Dropout 是 一 样 的 ， 尽 管 我 们 必须 在 开始 运 
行 推断 前 将 权重 除 以 2。 

Dropout 的 另 一 个 显著 优点 是 不 怎么 限制 适用 的 模型 或 训练 过 程 。 几 乎 在 所 有 
使 用 分 布 式 表示 旦 可 以 用 随机 梯度 下 降 训 练 的 模型 上 都 表现 很 好 。 包 括 前 馈 神经 网 
络 、 概 率 模型 ， 如 受 限 玻 尔 兹 曼 机 (Srivastava et al., 2014), 以 及 循环 神经 网 络 (Bayer 
and Osendorfer, 2014; Pascanu et al., 2014a)。 许 多 效果 差不多 的 其 他 正则 化 策略 对 
模型 结构 的 限制 更 严格 。 

虽然 Dropout 在 特定 模型 上 每 一 步 的 代价 是 微不足道 的 ， 但 在 一 个 完整 的 系统 
上 使 用 Dropout 的 代价 可 能 非常 显著 。 因 为 Dropout 是 一 个 正则 化 技术 ， 它 减少 了 模 
型 的 有 效 容量 。 为 了 抵消 这 种 影响 ， 我 们 必须 增 大 模型 规模 。 不 出 意外 的 话 ， 使 
用 Dropout 时 最 佳 验 证 集 的 误差 会 低 很 多 , 但 这 是 以 更 大 的 模型 和 更 多 训练 算法 的 迭 
代 次 数 为 代价 换 来 的 。 对 于 非常 大 的 数据 集 ， 正则 化 带 来 的 泛 化 误差 减少 得 很 小 。 在 
这 些 情况 下 ,使 用 Dropout 和 更 大 模型 的 计算 代价 可 能 超过 正则 化 带 来 的 好 人 处。 

只 有 极 少 的 训练 样本 可 用 时 ，Dropout 不 会 很 有 效 。 在 只 有 不 到 5000 的 样本 
的 Alternative Splicing 数 据 集 上 (Xiong et al, 2011)， 贝 叶 斯 神经 网 络 (Neal, 1996) 
比 Dropout 表 现 得 更 好 (Srivastava et al., 2014)。 当 有 其 他 未 分 类 的 数据 可 用 时 ， 无 
监督 特征 学 习 也 比 Dropout 更 有 优势 。 

Wager et al. (2013) 表明 ， 当 Dropout 作 用 于 线性 回归 时 ， 相 当 于 每 个 输入 特征 
具有 不 同 权重 衰减 系数 的 权重 衰减 。 每 个 特征 的 权重 衰减 系数 的 大 小 是 由 其 方差 
来 确定 的 a。 其 他 线性 模型 也 有 类 似 的 结果 。 而 对 于 深度 模型 而 言 ，Dropout 与 权重 衰 
减 是 不 等 同 的 。 

使 用 Dropout 训 练 时 的 随机 性 不 是 这 个 方法 成 功 的 必要 条 件 。 它 仅仅 是 近似 所 有 
子 模型 总 和 的 一 个 方法 。Wang and Manning (2013) 导出 了 近似 这 种 边缘 分 布 的 解 
析 解 。 他 们 的 近似 被 称 为 快速 Dropout (fast dropout ), 减 小 梯度 计算 中 的 随机 性 
而 获得 更 快 的 收敛 速度 。 这 种 方法 也 可 以 在 测试 时 应 用 , 能 够 比 权重 比例 推 朵 规则 更 
合理 地 (但 计算 也 更 昂贵 ) 近似 所 有 子 网 络 的 平均 。 快 速 Dropout 在 小 神经 网 络 上 
的 性 能 几乎 与 标准 的 Dropout 相 当 ， 但 在 大 问题 上 尚未 产生 显著 改善 或 尚未 应 用 。 

随机 性 对 实现 Dropout 的 正则 化 效果 不 是 必要 的 ， 同 时 也 不 是 充分 的 。 为 了 证 明 
这 一 点 ，Warde-Farley et al. (2014) 使 用 一 种 被 称 为 Dropout Boosting ( Dropout 
Boosting ) 的 方法 设计 了 一 个 对 照 实验 ， 具 有 与 传统 Dropout 方 法 完全 相同 的 噪声 掩 
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人 码 ， 但 缺乏 正则 化 效果 。Dropout Boosting 训 练 整个 集成 以 最 大 化 训练 集 上 的 似 然 。 
从 传统 Dropout 类 似 于 Bagging 的 角度 来 看 ， 这 种 方式 类 似 于 Boosting。 如 预期 一 样 ， 
和 单一 模型 训练 整个 网 络 相 比 ，Dropout Boosting 几 乎 没有 正则 化 效果 。 这 表明 , 使 
用 Bagging 解 释 Dropout 比 使 用 稳健 性 噪声 解释 Dropout 更 好 。 只 有 当 随 机 抽样 的 集 
成 成 员 相互 独立 地 训练 好 后 ， 才 能 达到 Bagging 集 成 的 正则 化 效果 。 

Dropout 启 发 其 他 以 随机 方法 训练 指数 量 级 的 共享 权重 的 集成 。DropConnect 是 
Dropout 的 一 个 特殊 情况 ， 其 中 一 个 标量 权重 和 单个 隐藏 单元 状态 之 间 的 每 个 乘积 
被 认为 是 可 以 丢弃 的 一 个 单元 (Wan et al., 2013)。 随 机 池 化 是 构造 卷 积 神经 网 络 集 
成 的 一 种 随机 池 化 的 形式 ( 见 第 9.3 节 )， 其 中 每 个 卷 积 网 络 参与 每 个 特征 图 的 不 同 空 
间 位 置 。 目 前 为 止 ， Dropout 仍 然 是 最 广泛 使 用 的 隐 式 集成 方法 。 

一 个 关于 Dropout 的 重要 见解 是 , 通过 随机 行为 训练 网 络 并 平均 多 个 随机 决定 进 
行 预测 ， 实 现 了 一 种 参数 共享 的 Bagging 形 式 。 早 些 时 候 ， 我 们 将 Dropout 描 述 为 通 
过 包括 或 排除 单元 形成 模型 集成 的 Bagging。 然 而 ， 这 种 参数 共享 策略 不 一 定 要 基于 
包括 和 排除 。 原 则 上 ， 任 何 一 种 随机 的 修改 都 是 可 接受 的 。 在 实践 中 ， 我 们 必须 选 
择 让 神经 网 络 能 够 学 习 对 抗 的 修改 类 型 。 在 理想 情况 下 ， 我 们 也 应 该 使 用 可 以 快速 
近似 推断 的 模型 族 。 我们 可 以 认为 由 向 量 j 参数 化 的 任何 形式 的 修改 ， 是 对 pe 所 有 
可 能 的 值 训 练 p(y | z, u) 的 集成 。 注 意 ， 这 里 不 要 求 p 具有 有 限 数 量 的 值 。 例 如 ， 
u 可 以 是 实 值 。Srivastava et al. (2014) RH, ERA u ~ N(1,D) 比 基 于 二 值 掩 
Dropout KMFE. HF Ely) = 1， 标 准 网 络 自动 实现 集成 的 近似 推 新 ， 而 不 需 
要 权重 比例 推断 规则 。 

目前 为 止 ， 我们 将 Dropout 介 绍 为 一 种 纯粹 高 效 近似 Bagging 的 方法 。 人 然而， 还 
有 比 这 更 进一步 的 Dropout 观 点 。Dropout 不 仅仅 是 训练 一 个 Bagging 的 集成 模型 ， 并 
且 是 共享 隐藏 单元 的 集成 模型 。 这 意味 着 无 论 其 他 隐藏 单元 是 否 在 模型 中 , 每 个 隐藏 
单元 必须 都 能 够 表现 良好 。 隐 藏 单元 必须 准备 好 进行 模型 之 间 的 交换 和 互 换 。Hinton 
et al. (2012c) 由 生物 学 的 想法 受到 启发 : 有 性 繁殖 涉及 到 两 个 不 同 生 物体 之 间 交 换 
基因 ， 进 化 产生 的 压力 使 得 基因 不 仅 是 良好 的 而 且 要 准备 好 不 同 有 机 体 之 间 的 交换 。 
这 样 的 基因 和 这 些 特点 对 环境 的 变化 是 非常 稳健 的 ， 因 为 它们 一 定 会 正确 适应 任何 
一 个 有 机 体 或 模型 不 寻常 的 特性 。 因 此 Dropout 正 则 化 每 个 隐藏 单元 不 仅 是 一 个 很 好 
的 特征 ， 更 要 在 许多 情况 下 是 良好 的 特征 。Warde-Farley et al. (2014) 将 Dropout 与 
大 集成 的 训练 相 比 并 得 出 结论 : 相 比 独立 模型 集成 获得 泛 化 误差 .， Dropout 会 带 来 额 
外 的 改进 。 

Dropout 强 大 的 大 部 分 原因 来 自 施 加 到 隐藏 单元 的 掩 码 噪 声 ， 了 解 这 一 事实 是 重 
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要 的 。 这 可 以 看 作 是 对 输入 内 容 的 信息 高 度 智能 化 、 自 适应 破坏 的 一 种 形式 ， 而 不 
是 对 输入 原始 值 的 破坏 。 例 如 ， 如 果 模型 学 得 通过 自 检 测 脸 的 隐藏 单元 hi, MAE 
R hi 对 应 于 擦 除 图 像 中 有 鼻子 的 信息 。 模 型 必须 学 习 男 一 种 六 ,要 么 是 鼻子 存在 的 
宛 余 编码 ， 要 人 么 是 脸 部 的 另 一 特征 ， 如 嘴 。 传 统 的 噪声 注入 技术 ， 在 输入 端 加 非 结 
构 化 的 噪声 不 能 够 随机 地 从 脸 部 图 像 中 抹 去 关于 曙 子 的 信息 ， 除 非 噪声 的 幅度 大 到 
几乎 能 抹 去 图 像 中 所 有 的 信息 。 破 坏 提取 的 特征 而 不 是 原始 值 ， 让 破坏 过 程 充 分 利 
用 该 模型 迄今 获得 的 关于 输入 分 布 的 所 有 知识 。 

Dropout 的 另 一 个 重要 方面 是 噪声 是 乘 性 的 。 如 果 是 固定 规模 的 加 性 噪声 ， 那 么 
加 了 噪声 e 的 整流 线性 隐藏 单元 可 以 简单 地 学 会 使 hi 变 得 很 大 (使 增加 的 噪声 e 变 
得 不 显著 )。 乘 性 噪声 不 允许 这 样 病态 地 解决 噪声 鲁 棒 性 问题 。 

另 一 种 深度 学 习 算法 一 一 批 标准 化 ， 在 训练 时 各 隐藏 单 元 引入 加 性 和 乘 性 噪声 
重新 参数 化 模型 。 批 标准 化 的 主要 目的 是 改善 优化 ， 但 噪声 具有 正则 化 的 效果 ， 有 
时 没 必 要 再 使 用 Dropout。 批 标准 化 将 会 在 第 8.7.1 节 中 被 更 详细 地 讨论 。 
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在 许多 情况 下 ， 神 经 网 络 在 独立 同 分 布 的 测试 集 上 进行 评估 已 经 达到 了 人 类 表 
现 。 因 此 ， 我 们 自然 要 怀疑 这 些 模 型 在 这 些 任 务 上 是 否 获 得 了 真正 的 人 类 层次 的 理 
解 。 为 了 探索 网 络 对 底层 任务 的 理解 层次 ,我 们 可 以 探索 这 个 模型 错误 分 类 的 例子 。 
Szegedy et al. (2014b) 发 现 ， 在 精度 达到 人 类 水 平 的 神经 网 络 上 通过 优化 过 程 故 意 
构造 数据 点 ， 其 上 的 误差 率 接近 100 色 ， 模 型 在 这 个 输入 点 x 的 输出 与 附近 的 数据 
点 了 非常 不 同 。 在 许多 情况 下 ，2 与 z 非常 近似 ， 人 类 观察 者 不 会 察觉 原始 样本 
和 对 抗 样本 ( adversarial example ) 之 间 的 差异 ,但 是 网 络 会 作出 非常 不 同 的 预测 。 
见 图 7.8 中 的 例子 。 

对 抗 样本 在 很 多 领域 有 很 多 影响 ， 例 如 计算 机 安全 ， 这 超出 了 本 章 的 范围 。 然 
而 ， 它 们 在 正则 化 的 背景 下 很 有 意思 ， 因 为 我 们 可 以 通过 对 抗 训练 (adversarial 
training ) 减少 原 有 独立 同 分 布 的 测试 集 的 错误 率 一 一 在 对 抗 扰动 的 训练 集 样本 上 训 
练 网 络 (Szegedy et al., 2014b; Goodfellow et al., 2014b)。 

Goodfellow et al. (2014b) 表明 ， 这 些 对 抗 样本 的 主要 原因 之 一 是 过 度 线性 。 神 
经 网 络 主要 是 基于 线性 块 构建 的 。 因 此 在 一 些 实验 中 ,它们 实现 的 整体 函数 被 证 明 
是 高 度 线性 的 。 这 些 线性 函数 很 容易 优化 。 不 幸 的 是 ， 如 果 一 个 线性 函数 具有 许多 
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图 7.8: 在 ImageNet 上 应 用 GoogLeNet (Szegedy et al., 2014a) 的 对 抗 样本 生成 的 演示 。 通 过 添 
加 一 个 不 可 察觉 的 小 向 量 ( 其 中 元 素 等 于 代价 函数 相对 于 输入 的 梯度 元 素 的 符号 )， 我 们 可 以 改变 
GoogLeNet 对 此 图 像 的 分 类 结果 。 经 Goodfellow et al. (2014b) 许可 转载 。 























输入 ， 那 么 它 的 值 可 以 非常 迅速 地 改变 。 如 果 我 们 用 。 改变 每 个 输入 ， 那 么 权重 为 
w 的 线性 函数 可 以 改变 cwl 之 多 ， 如 果 w 是 高 维 的 这 会 是 一 个 非常 大 的 数 。 对 
抗 训练 通过 鼓励 网 络 在 训练 数据 附近 的 局 部 区 域 恒定 来 限制 这 一 高 度 敏感 的 局 部 线 
性 行为 。 这 可 以 被 看 作 是 一 种 明确 地 向 监督 神经 网 络 引 入 局 部 恒定 先 验 的 方法 。 

对 抗 训 练 有 助 于 体现 积极 正则 化 与 大 型 函数 族 结合 的 力量 。 纯 粹 的 线性 模型 ， 
如 人 逻辑 回归 ， 由 于 它们 被 限制 为 线性 而 无 法 抵抗 对 抗 样本 。 神 经 网 络 能 够 将 函数 从 
接近 线性 转化 为 局 部 近似 恒定 ， 从 而 可 以 灵活 地 捕获 到 训练 数据 中 的 线性 趋势 同时 
学 习 抵抗 局 部 扰动 。 

对 抗 样本 也 提供 了 一 种 实现 半 监 督学 习 的 方法 。 在 与 数据 集中 的 标签 不 相关 联 
的 点 z 处 ,模型 本 身 为 其 分 配 一 些 标 签 9。 模型 的 标记 未 必 是 真正 的 标签 ,但 如 
果 模 型 是 高 品质 的 ， 那 么 $ 提供 正确 标签 的 可 能 性 很 大 。 我 们 可 以 搜索 一 个 对 抗 样 
本 ZY ， 导 致 分 类 带 输 出 一 个 标签 y Ay! 隆 Y。 不 使 用 真正 的 标签 ， 而 是 由 训练 好 
的 模型 提供 标签 产生 的 对 抗 样本 被 称 为 虚拟 对 抗 样本 (virtual adversarial example ) 
(Miyato et al., 2015)。 我 们 可 以 训练 分 类 器 为 zx 和 x 分 配 相同 的 标签 。 这 鼓励 分 类 
器 学 习 一 个 沿 着 未 标签 数据 所 在 流 形 上 任意 微小 变化 都 很 鲁 棒 的 函数 。 驱 动 这 种 方 
法 的 假设 是 ,不同 的 类 通常 位 于 分 离 的 流 形 上 ， 并 且 小 扰动 不 会 使 数据 点 从 一 个 类 
的 流 形 跳 到 另 一 个 类 的 流 形 上 。 
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如 第 5.11.3 节 所 述 ， 许 多 机 器 学 习 的 目标 旨 在 假设 数据 位 于 低 维 流 形 附 近来 区 
服 维 数 灾难 。 

一 个 利用 流 形 假设 的 早期 尝试 是 切面 距离 (tangent distance ) 算法 (Simard 
et al., 1993, 1998)。 它 是 一 种 非 参 数 的 最 近邻 算法 ， 其 中 使 用 的 度量 不 是 通用 的 欧 几 
里 德 距离 ， 而 是 根据 邻近 流 形 关于 聚集 概率 的 知识 导出 的 。 这 个 算法 假设 我 们 尝试 
分 类 的 样本 和 同一 流 形 上 的 样本 具有 相同 的 类 别 。 由 于 分 类 器 应 该 对 局 部 因素 ( 对 
应 于 流 形 上 的 移动 ) 的 变化 保持 不 变 ， 一 种 合理 的 度量 是 将 点 m_ 和 oe 各 自 所 在 流 
JÉ M, 和 M 的 距离 作为 点 a, 和 zo 之 间 的 最 近邻 距离 。 然 而 这 可 能 在 计算 上 是 困 
难 的 〈 它 需要 解决 一 个 寻找 M 和 M, 最近 点 对 的 优化 问题 )， 一 种 局 部 合理 的 廉价 
替代 是 使 用 zx; 点 处 切 平面 近似 M;， 并 测量 两 条 切 平面 或 一 个 切 平面 和 点 之 间 的 距 
离 。 这 可 以 通过 求解 一 个 低 维 线性 系统 ( 就 流 形 的 维 数 而 言 ) 来 实现 。 当 然 , 这 种 算 
法 需要 制定 一 个 切 向 量 。 

受 相 关 启 发 ， 正 切 传播 (tangent prop ) 算法 (Simard et al., 1992) (图 7.9 ) YI 
练 带 有 额外 惩罚 的 神经 网 络 分 类 器 ， 使 神经 网 络 的 每 个 输出 f(x) 对 已 知 的 变化 因素 
是 局 部 不 变 的 。 这 些 变化 因素 对 应 于 沿 着 的 相同 样本 聚集 的 流 形 的 移动 。 这 里 实现 
局 部 不 变性 的 方法 是 要 求 Vsf(z) 与 已 知 流 形 的 切 向 vo 正 交 ， 或 者 等 价 地 通过 正 
则 化 惩罚 Q 使 上 在 z 的 vO 方向 的 导数 较 小 : 


AF) = (Wasa), (7.67) 

















这 个 正则 化 项 当然 可 以 通过 适当 的 超 参 数 缩放 ， 并 且 对 于 大 多 数 神经 网 络 ， 我 们 需 
要 对 许多 输出 求 和 (此 处 为 描述 简单 ，f(z) 为 唯一 输出 )。 与 切面 距离 算法 一 样 ， 我 
们 根据 切 向 量 推导 先 验 , 通常 从 变换 ( 如 平移 、 旋 转 和 缩放 图 像 ) 的 效果 获得 形式 知 
识 。 正 切 传 播 不 仅 用 于 监督 学 习 (Simard et al, 1992) ， 还 在 强化 学 习 (Thrun, 1995) 
中 有 所 应 用 。 

正切 传播 与 数据 集 增强 密切 相关 。 在 这 两 种 情况 下 ， 该 算法 的 用 户 通 过 指定 一 
组 不 改变 网 络 输 出 的 转换 ， 编 码 其 先 验 知识 。 不 同 的 是 在 数据 集 增 强 的 情况 下 ， 网 
络 显 式 地 训练 正确 分 类 这 些 施加 大 量变 换 后 产生 的 不 同 输入 。 正 切 传播 不 需要 显 式 
访问 一 个 新 的 输入 点 。 取 而 代 之 ， 它 解析 地 对 模型 正则 化 从 而 在 指定 转换 的 方向 抵 
抗 扰 动 。 虽然 这 种 解析 方法 是 聪明 优雅 的 ， 但 是 它 有 两 个 主要 的 缺点 。 首 先 ， 模 型 
的 正则 化 只 能 抵抗 无 穷 小 的 扰动 。 显 式 的 数据 集 增强 能 抵抗 较 大 的 扰动 。 其 次 ,我 
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图 7.9: 正切 传播 算法 (Simard et al., 1992) 和 流 形 正切 分 类 器 主要 思想 的 示意 图 (Rifai et al., 
2011c)， 它 们 都 正则 化 分 类 器 的 输出 函数 /zz)。 每 条 曲线 表示 不 同类 别 的 流 形 ， 这 里 表示 从 人 二 
维 空间 中 的 一 维 流 形 。 在 一 条 曲线 上 ， 我 们 选择 单个 点 并 绘制 一 个 与 类 别 流 形 〈 平行 并 接触 流 形 ) 
相 切 的 向 量 以 及 与 类 别 流 形 ( 与 流 形 正 交 ) 垂直 的 向 量 。 在 多 维 情况 下 ,可 以 存在 许多 切线 方向 和 
法 线 方向 。 我 们 希望 分 类 函数 在 垂直 于 流 形 方向 上 快速 改变 ， 并 且 在 类 别 流 形 的 方向 上 保持 不 变 。 
正切 传播 和 流 形 正 切 分 类 器 都 会 正则 化 f(x), 使 其 不 随 z 沿 流 形 的 移动 而 剧烈 变化 。 正 切 传播 需 
要 用 户 手 动 指定 正切 方向 的 计算 函数 (例如 指定 小 平移 后 的 图 像 保留 在 相同 类 别 的 流 形 中 )， 而 流 
形 正切 分 类 器 通过 训练 自 编码 器 拟 合 训练 数据 来 估计 流 形 的 正切 方向 。 我 们 将 在 第 十 四 章 中 讨论 
使 用 自 编码 器 来 估计 流 形 。 
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们 很 难 在 基于 整流 线性 单元 的 模型 上 使 用 无 限 小 的 方法 。 这 些 模型 只 能 通过 关闭 单 
元 或 缩小 它们 的 权重 才能 缩小 它们 的 导数 。 它 们 不 能 像 sigmoid 或 tanh 单 元 一 样 通过 
较 大 权重 在 高 值 处 饱和 以 收缩 导数 。 数 据 集 增强 在 整流 线性 单元 上 工作 得 很 好 ， 因 
为 不 同 的 整流 单元 会 在 每 一 个 原始 输入 的 不 同 转 换 版 本 上 被 激活 。 

正切 传播 也 涉及 到 双 反 向 传播 (Drucker and LeCun, 1992) 和 对 抗 训练 (Szegedy 
et al., 2014a; Goodfellow et wo.，2014b)。 双 反 辐 传播 正则 化 使 Jacobian 和 矩阵 偏 小 ， 
而 对 抗 训练 找到 原 输入 附近 的 点 ， 训 练 模型 在 这 些 点 上 产生 与 原来 输入 相同 的 输出 。 
正切 传播 和 手动 指定 转换 的 数据 集 增 强 都 要 求 模型 在 输入 变化 的 某 些 特定 的 方向 
上 保持 不 变 。 双 反 向 传播 和 对 抗 训练 都 要 求 模型 对 输入 所 有 方向 中 的 变化 (只 要 该 
变化 较 小 ) 都 应 当 保持 不 变 。 正 如 数据 集 增 强 是 正切 传播 非 无 限 小 的 版 本 ， 对 抗 训 
练 是 双 反 向 传播 非 无 限 小 的 版 本 。 

流 形 正 切 分 类 器 (Rifai et al., 2011d) 无 需 知道 切线 向 量 的 先 验 。 我 们 将 在 第 十 
四 章 看 到 ， 自 编码 器 可 以 估算 流 形 的 切 向 量 。 流 形 正切 分 类 器 使 用 这 种 技术 来 避免 
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用 户 指定 切 向 量 。 如 图 14.10 所 示 ， 这 些 佑 计 的 切 向 量 不 仅 对 图 像 经 典 几何 变换 ( 如 
转化 、 旋 转 和 缩放 ) 保持 不 变 ， 还 必须 掌握 对 特定 对 象 〈 如 移动 身体 的 部 分 ) 保持 
不 变 的 因素 。 因 此 根据 流 形 正切 分 类 器 提出 的 算法 相当 简单 : (1) 使 用 自 编码 器 通 
过 无 监督 学 习 来 学 习 流 形 的 结构 ， 以 及 (2) 如 正切 传播 ( 式 (7.67) ) 一 样 使 用 这 些 
切面 正则 化 神经 网 络 分 类 顺 。 

在 本 章 中 , 我 们 已 经 描述 了 大 多 数 用 于 正则 化 神经 网 络 的 通用 策略 。 正则 化 是 机 
需 学 习 的 中 心 主 题 ， 因 此 我 们 将 不 时 在 其 余 各 章 中 重新 回顾 。 机 器 学 习 的 另 一 个 中 
心 主题 是 优化 ,我们 将 在 下 一 章 描述 。 
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深度 学 习 算 法 在 许多 情况 下 都 涉及 到 优化 。 例如 ,模型 中 的 进行 推断 (如 PCA ) 
涉及 到 求解 优化 问题 。 我 们 经 常 使 用 解析 优化 去 证 明 或 设计 算法 。 在 深度 学 习 涉 及 
到 的 诸多 优化 问题 中 ， 最 难 的 是 神经 网 络 训 练 。 其 至 是 用 几 百 台 机 器 投入 几 天 到 几 
个 月 来 解决 单个 神经 网 络 训练 问题 ， 也 是 很 常见 的 。 因 为 这 其 中 的 优化 问题 很 重要 ， 
代价 也 很 高 ， 因 此 研究 者 们 开发 了 一 组 专门 为 此 设计 的 优化 技术 。 本 章 会 介绍 神经 
网 络 训练 中 的 这 些 优化 技术 。 

如 果 你 不 熟悉 基于 梯度 优化 的 基本 原则 ,我们 建议 回顾 第 四 章 。 该 章 简要 概述 
了 一 般 的 数值 优化 。 

本 章 主 要 关注 这 一 类 特定 的 优化 问题 ， 寻找 神经 网 络 上 的 一 组 参数 9， 它 能 显 
著 地 降低 代价 函数 7(8)， 该 代价 函数 通常 包括 整个 训练 集 上 的 性 能 评估 和 额外 的 正 
则 化 项 。 

首先 ， 我们 会 介绍 在 机 器 学 习 任 务 中 作为 训练 算法 使 用 的 优化 与 纯 优化 有 哪些 
不 同 。 接 下 来 , 我们 会 介绍 导致 神经 网 络 优化 困难 的 几 个 具体 挑战 。 然后 ,我们 会 介 
绍 几 个 实用 算法 ,包括 优化 算法 本 号 和 初始 化 参数 的 策略 。 更 高 级 的 算法 能 够 在 训 
练 中 自 适 应 调整 学 习 率 ， 或 者 使 用 代价 函数 二 阶 导 数 包 含 的 信息 。 最 后 ， 我 们 会 介 
绍 几 个 将 简单 优化 算法 结合 成 高 级 过 程 的 优化 策略 ， 以 此 作为 总 结 。 














8.1 学 习 和 纯 优化 有 什么 不 同 


用 于 深度 模型 训练 的 优化 算法 与 传统 的 优化 算法 在 几 个 方面 有 所 不 同 。 机 顺 学 
习 通 常 是 间接 作用 的 。 在 大 多 数 机 器 学 习 问 题 中 ， 我 们 关注 某 些 性 能 度量 P, HE 
义 于 测试 集 上 并 且 可 能 是 不 可 解 的 。 因此， 我 们 只 是 间接 地 优化 P。 我 们 希望 通过 
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降低 代价 函数 J(0) 来 提高 P。 这 一 点 与 纯 优 化 不 同 , 纯 优 化 最 小 化 目标 了 本身。 训 
练 深度 模型 的 优化 算法 通常 也 会 包括 一 些 针 对 机 器 学 习 目 标 函 数 的 特定 结构 进行 的 
特 化 。 

通常 ,代价 函 数 可 写 为 训练 集 上 的 平均 ， 如 














J(0) = Ecxy)~pass Lf (2; 0), y), (8.1) 





HP L 是 每 个 样本 的 损失 函数 ，f(z;9) 是 输入 z TUT, Paata 是 经 验 分 
Wo WEIT, y 是 目标 输出 。 在 本 章 中 ， 我 们 会 介绍 不 带 正则 化 的 监督 学 习 , L 
的 变量 是 f(z;9) 和 yo 不 难 将 这 种 监督 学 习 扩 展 成 其 他 形式 ， 如 包括 9 或 者 x VE 
为 参数 ， 或 是 去 掉 参 数 y， 以 发 展 不 同形 式 的 正则 化 或 是 无 监督 学 习 。 

式 (8.1) 定义 了 训练 集 上 的 目标 函数 。 通 常 ， 我 们 更 希望 最 小 化 取 自 数据 生成 分 
布 paata 的 期 望 ， 而 不 仅仅 是 有 限 训练 集 上 的 对 应 目标 函数 : 














T°(0) = Eeuy)npaatal(S(% 0), y). (8.2) 


8.1.1 ”经验 风险 最 小 化 





机 需 学 习 算 法 的 目标 是 降低 式 (8.2) 所 示 的 期 望 泛 化 误差 。 这 个 数据 量 被 称 为 风 
险 (risk )。 在 这 里 ， 我 们 强调 该 期 望 取 自 真实 的 潜在 分 布 paata。 如 果 我 们 知道 了 真 
实 分 布 paata(z yj)， 那 么 最 小 化 风险 变 成 了 一 个 可 以 被 优化 算法 解决 的 优化 问题 。 然 
而 ， 我 们 遇 到 的 机 器 学 习 问 题 ， 通 带 是 不 知道 paata(z, 四)， 只 知道 训练 集中 的 样本 。 

将 机 器 学 习 问 题 转化 回 一 个 优化 问题 的 最 简单 方法 是 最 小 化 训练 集 上 的 期 望 损 
失 。 这 意味 着 用 训练 集 上 的 经 验 分 布 fi(z,y) 替代 真实 分 布 p(xz,y)。 现 在 ， 我 们 将 最 
小 化 经 验 风险 (empirical risk ): 











m 


pg PanalL( f(a 8),9)] = Y LEE: 0), yO), (8.3) 


Mm < 
i=1 














其 中 m 表示 训练 样本 的 数目 。 

基于 最 小 化 这 种 平均 训练 误差 的 训练 过 程 被 称 为 经 验 风险 最 小 化 empirical 
risk minimization )。 在 这 种 情况 下 ， 机 器 学 习 仍 然 和 传统 的 直接 优化 很 相似 。 我 们 
并 不 直接 最 优化 风险 ， 而 是 最 优化 经 验 风险 ， 和 希望 也 能 够 很 大 地 降低 风险 。 一 系列 
不 同 的 理论 构造 了 一 些 条 件 ， 使 得 在 这 些 条 件 下 真实 风险 的 期 望 可 以 下 降 不 同 的 量 。 
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然而 ， 经 验 风 险 最 小 化 很 容易 导致 过 拟 合 。 高 容量 的 模型 会 简单 地 记 住 训练 集 。 
在 很 多 情况 下 ， 经 验 风 险 最 小 化 并 非 真 的 可 行 。 最 有 效 的 现代 优化 算法 是 基于 梯度 
下 降 的 ， 但 是 很 多 有 用 的 损失 函数 ， 如 0 一 1 损失 ， 没 有 有 效 的 导数 (导数 要 么 为 
零 ， 要 么 处 处 未 定义 )。 这 两 个 问题 说 明 ， 在 深度 学 习 中 我 们 很 少 使 用 经 验 风险 最 小 
化 。 反 之 ,我们 会 使 用 一 个 稍 有 不 同 的 方法 ， 我 们 真正 优化 的 目标 会 更 加 不 同 于 我 
们 希望 优化 的 目标 。 


8.1.2 ”代理 损失 函数 和 提前 终止 


有 时 ， 我 们 真正 关心 的 损失 函数 (比如 分 类 误差 ) 并 不 能 被 高 效 地 优化 。 例 如 ， 
即使 对 于 线性 分 类 器 而 言 ， 精 确 地 最 小 化 O — 工 损失 通常 是 不 可 解 的 (复杂 度 是 输入 
维 数 的 指数 级 别 ) (Marcotte and Savard, 1992)。 在 这 种 情况 下， 我 们 通常 会 优化 代 
理 损失 函数 ( surrogate loss function )。 代 理 损失 函数 作为 原 目标 的 代理 ， 还 具备 一 
些 优点 。 例 如 ， 正 确 类 别 的 负 对 数 似 然 通常 用 作 0 一 1 损失 的 蔡 代 。 负 对 数 似 然 允许 
模型 估计 给 定 样本 的 类 别 的 条 件 概 率 ， 如 果 该 模型 效果 好 ， 那 么 它 能 够 输出 期 望 最 
小 分 类 误差 所 对 应 的 类 别 。 

在 某 些 情况 下 ， 代 理 损失 函数 比 原 函 数学 到 的 更 多 。 例 如 ， 使 用 对 数 似 然 蔡 代 
困 数 时 ， 在 训练 集 上 的 0 一 1 损失 达到 0 之 后 , 测试 集 上 的 0 一 1 损失 还 能 持续 下 降 
很 长 一 段 时 间 。 这 是 因为 即使 0 一 1 损失 期 望 是 零 时 ， 我 们 还 能 拉 开 不 同类 别 的 距离 
以 改进 分 类 器 的 鲁 棒 性 ， 获 得 一 个 更 强壮 的 、 更 值得 信赖 的 分 类 器， 从 而 ， 相 对 于 
简单 地 最 小 化 训练 集 上 的 平均 0 一 1 损失 ， 它 能 够 从 训练 数据 中 抽取 更 多 信息 。 

一 般 的 优化 和 我 们 用 于 训练 算法 的 优化 有 一 个 重要 不 同 : 训练 算法 通常 不 会 
停止 在 局 部 极 小 点 。 反 之 ， 机 器 学 习 通 党 优化 代理 损失 函数 ， 但 是 在 基于 提前 终止 
(第 7.8 节 ) 的 收敛 条 件 满足 时 停止 。 通常 ， 提 前 终止 使 用 真实 潜在 损失 函数， 如 验 
证 集 上 的 0 一 1 损失 ,并 设计 为 在 过 拟 合 发 生 之 前 终止 。 与 纯 优化 不 同 的 是 ， 提 前 终 
止 时 代理 损失 也 数 仍然 有 较 大 的 导数 ， 而 纯 优 化 终止 时 导数 较 小 。 


8.1.3 ”批量 算法 和 小 批量 算法 

机 需 学 习 算 法 和 一 般 优化 算法 不 同 的 一 点 是 ， 机 需 学 习 算 法 的 目标 函数 通常 可 
以 分 解 为 训练 样本 上 的 求 和 。 机 器 学 习 中 的 优化 算法 在 计算 参数 的 每 一 次 更 新 时 通 
常 仅 使 用 整个 代价 函数 中 一 部 分 项 来 估计 代价 函数 的 期 望 值 。 
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例如 ， 最 大 似 然 估 计 问 题 可 以 在 对 数 空间 中 分 解 成 各 个 样本 的 总 和 : 


ev = aie > log Pmoaa(@, y; 0). (8.4) 
最 大 化 这 个 总 和 等 价 于 最 大 化 训练 集 在 经 验 分 布 上 的 期 望 : 
J(9) = Ex,yPaata 108 Pmodel(, y; O). (8.5) 
ORE FAB A ei eT 中 的 大 多 数 属性 也 是 训练 集 上 的 期 望 。 例 如 ， 最 各 
用 的 属性 是 梯度 : 























Vo J(@) = By y~Baata VO log Pmogh (T, y; 0). (8.6) 


准确 计算 这 个 期 望 的 计算 代价 非常 大 ， 因 为 我 们 需要 在 整个 数据 集 上 的 每 个 样 
本 上 评估 模型 。 在 实践 中 ， 我 们 可 以 从 数据 集中 随机 采样 少量 的 样本 ， 然 后 计算 这 
些 样 本 上 的 平均 值 。 

回想 一 下 , n 个 样本 均值 的 标准 差 ( 式 (5.46) ) 是 o/ Vn, 其 中 o 是 样本 值 真实 
的 标准 差 。 分母 Vn 表明 使 用 更 多 样本 来 估计 梯度 的 方法 的 回报 是 低 于 线性 的 。 比 
较 两 个 假想 的 梯度 计算 ,一 个 基于 100 个 样本 ， 男 一 个 基于 10,000 个 样本 。 后 者 需 
要 的 计算 量 是 前 者 的 100 倍 ， 但 却 只 降低 了 10 倍 的 均值 标准 差 。 如 果 能 够 快速 地 
计算 出 梯度 估计 值 ， 而 不 是 缓慢 地 计算 准确 值 ， 那 么 大 多 数 优化 算法 会 收银 地 更 快 
( 就 总 的 计算 量 而 言 ， 而 不 是 指 更 新 次 数 )。 

男 一 个 促使 我 们 从 小 数目 样本 中 获得 梯度 的 统计 倍 计 的 动机 是 训练 集 的 元 余 。 
在 最 坏 的 情况 下 ， 训 练 集中 所 有 的 m 个 样本 都 是 彼此 相同 的 拷贝 。 基 于 采样 的 梯度 
佑 计 可 以 使 用 单个 样本 计算 出 正确 的 梯度 ， 而 比 原来 的 做 法 少 花 了 m 倍 时 间 。 实 践 
中 ， 我 们 不 太 可 能 真 的 遇 到 这 种 最 坏 情况 ， 但 我 们 可 能 会 发 现 大 量 样本 都 对 梯度 做 
出 了 非常 相似 的 贡献 。 

使 用 整个 训练 集 的 优化 算法 被 称 为 批量 ( batch ) 或 确定 性 (deterministic ) 梯 
度 算法 ， 因 为 它们 会 在 一 个 大 批量 中 同时 处 理 所 有 样本 。 这 个 术语 可 能 有 点 令 人 困 
惑 ， 因 为 这 个 词 “ 批 量 ” 也 经 常 被 用 来 描述 小 批量 随机 梯度 下 降 算 法 中 用 到 的 小 批 
量 样 本 。 通 常 ， 术 语 “ 批 量 梯 度 下 降 ” 指 使 用 全 部 训练 集 ， 而 术语 “批量 ”单独 出 现 
时 指 一 组 样本 。 例 如 ， 我 们 普遍 使 用 术语 “批量 大 小 ”表示 小 批量 的 大 小 。 

每 次 只 使 用 单个 样本 的 优化 算法 有 时 被 称 为 随机 (stochastic ) 或 者 在线 (on- 
line ) 算法 。 术 语 “ 在 线 ” 通常 是 指 从 连续 产生 样本 的 数据 流 中 抽取 样本 的 情况 ， 而 
不 是 从 一 个 固定 大 小 的 训练 集中 遍历 多 次 采样 的 情况 。 
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大 多 数 用 于 深度 学 习 的 算法 介 于 以 上 两 者 之 间 ， 使 用 一 个 以 上 ， 而 又 不 是 全 部 
的 训练 样本 。 传统 上 ,这 些 会 被 称 为 小 批量 (minibatch ) 或 小 批量 随机 ( minibatch 
stochastic) 方法 ， 现 在 通常 将 它们 简单 地 称 为 BEAL (stochastic ) WHE. 


随机 方法 的 典型 示例 是 随机 梯度 下 降 ， 这 将 在 第 8.3.1 方 中 详细 描述 。 
小 批量 的 大 小 通常 由 以 下 几 个 因素 决定 : 
。 更 大 的 批量 会 计算 更 精确 的 梯度 佑 计 ， 但 是 回报 却 是 小 于 线性 的 。 
。 极 小 批量 通常 难以 充分 利用 多 核 架 构 。 这 促使 我 们 使 用 一 些 绝对 最 小 批量 ， 低 
于 这 个 值 的 小 批量 处 理 不 会 减少 计算 时 间 。 


。 如果 批量 处 理 中 的 所 有 样本 可 以 并 行 地 处 理 (通常 确 是 如 此 )， 那 么 内 存 消耗 
和 批量 大 小 会 正比 。 对 于 很 多 硬件 设施 ， 这 是 批量 大 小 的 限制 因素 。 





o 在 某 些 硬件 上 使 用 特定 大 小 的 数组 时 , 运行 时 间 会 更 少 。 尤其 是 在 使 用 GPU 时 ， 
通常 使 用 2 的 窜 数 作为 批量 大 小 可 以 获得 更 少 的 运行 时 间 。 一 般 ，2 的 寡 数 的 
取 值 范围 是 32 到 256，16 有 时 在 尝试 大 模型 时 使 用 。 








e 可 能 是 由 于 小 批量 在 学 习 过 程 中 加 入 了 噪声 , 它们 会 有 一 些 正 则 化 效果 (Wilson 
and Martinez, 2003)。 泛 化 误差 通常 在 批量 大 小 为 1 时 最 好 。 因 为 梯度 佑 计 的 
高 方差 ， 小 批量 训练 需要 较 小 的 学 习 率 以 保持 稳定 性 。 因 为 降低 的 学 习 率 和 消 
耗 更 多 步骤 来 过 历 整个 训练 集 都 会 产生 更 多 的 步骤， 所 以 会 导致 总 的 运行 时 间 
非常 大 。 





不 同 的 算法 使 用 不 同 的 方法 从 小 批量 中 获取 不 同 的 信息 。 有 些 算法 对 采样 误差 
比 其 他 算法 更 敏感 ， 这 通常 有 两 个 可 能 原因 。 一 个 是 它们 使 用 了 很 难 在 少量 样本 上 
精确 佑 计 的 信息 ， 妃 一 个 是 它们 以 放大 采样 误差 的 方式 使 用 了 信息 。 仅 基于 梯度 g 
的 更 新 方法 通常 相对 和 鲁 棒 ， 并 能 使 用 较 小 的 批量 获得 成 功 ， 如 100. EH Hessian kt 
MA, WA Hg 更 新 的 二 阶 方法 通常 需要 更 大 的 批量 ， 如 10,000。 这 些 大 批 
量 需要 最 小 化 估计 Hg 的 波动 。 假 设 五 被 精确 估计 , 但 是 有 病态 条 件数 。 乘 以 H 
或 是 其 逆 会 放大 之 前 存在 的 误差 ( 这 个 示例 中 是 指 g 的 估计 误差 )。 即 使 H 被 精确 
估计 ，9 中 非常 小 的 变化 也 会 导致 更 新 值 H g 中 非常 大 的 变化 。 当 然 , 我 们 通常 只 
会 近似 地 佑 计 互 ,， 因此 相对 于 我 们 使 用 具有 较 差 条 件 的 操作 去 估计 g, 更 新 Hg 
会 含有 更 多 的 误差 。 
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小 批量 是 随机 抽取 的 这 点 也 很 重要 。 从 一 组 样本 中 计算 出 梯度 期 望 的 无 偏 估计 
要 求 这 些 样 本 是 独立 的 。 我 们 也 希望 两 个 连续 的 梯度 佑 计 是 互相 独立 的 , 因此 两 个 连 
续 的 小 批量 样本 也 应 该 是 彼此 独立 的 。 很 多 现实 的 数据 集 自然 排列 ， 从 而 使 得 连续 
的 样本 之 间 具 有 高 度 相关 性 。 例 如 ,假设 我 们 有 一 个 很 长 的 血液 样本 测试 结果 清单 。 
清单 上 的 数据 有 可 能 是 这 样 获取 的 ， 头 五 个 血液 样本 于 不 同时 间 段 取 自 第 一 个 病人 ， 
接 下 来 三 个 血液 样本 取 自 第 二 个 病人 , 再 随后 的 血液 样本 取 自 第 三 个 病人 , 等 等 。 如 
果 我 们 从 这 个 清单 上 顺序 抽取 样本 ， 那 么 我 们 的 每 个 小 批量 数据 的 侦 差 都 很 大 ， 
为 这 个 小 批量 很 可 能 只 代表 着 数据 集 上 众多 患者 中 的 某 一 个 患者 。 在 这 种 数据 集中 
的 顺序 有 很 大 影响 的 情况 下 ， 很 有 必要 在 抽取 小 批量 样本 前 打 乱 样本 顺序 。 对 于 非 
常 大 的 数据 集 ， 如 数据 中 心 含有 几 十 亿 样 本 的 数据 集 ， 我 们 每 次 构建 小 批量 样本 时 
都 将 样本 完全 均匀 地 抽取 出 来 是 不 大 现实 的 。 幸 运 的 是 ,实践 中 通常 将 样本 顺序 打 
乱 一 次 ， 然 后 按照 这 个 顺序 存储 起 来 就 足够 了 。 之 后 训练 模型 时 会 用 到 的 一 组 组 小 
批量 连续 样本 是 固定 的 ， 每 个 独立 的 模型 每 次 遍历 训练 数据 时 都 会 重复 使 用 这 个 顺 
序 。 然 而 ， 这 种 偏离 真实 随机 采样 的 方法 并 没有 很 严重 的 有 害 影 响 。 不 以 某 种 方式 
打 乱 样本 顺序 才 会 极 大 地 降低 算法 的 性 能 。 

很 多 机 器 学 习 上 的 优化 问题 都 可 以 分 解 成 并 行 地 计算 不 同样 本 上 单独 的 更 新 。 
换言之 ， 我 们 在 计算 小 批量 样本 X 上 最 小 化 J(X) 的 更 新 时 ， 同 时 可 以 计算 其 他 小 
批量 样本 上 的 更 新 。 这 类 异步 并 行 分 布 式 方法 将 在 第 12.1.3 节 中 进一步 讨论 。 

小 批量 随机 梯度 下 降 的 一 个 有 趣 动 机 是 ， 只 要 没有 重复 使 用 样本 ， 它 将 遵循 着 
真实 泛 化 误差 ( 式 (8.2) ) 的 梯度 。 很 多 小 批量 随机 梯度 下 降 方法 的 实现 都 会 打 乱 数 
据 顺 序 一 次 ， 然 后 多 次 遍历 数据 来 更 新 参数 。 第 一 次 遍历 时 ， 每 个 小 批量 样本 都 用 
来 计算 真实 泛 化 误差 的 无 偏 估计。 第 二 次 遍历 时 ， 佑 计 将 会 是 有 仿 的 ， 因 为 它 重 新 
抽取 了 已 经 用 过 的 样本 ， 而 不 是 从 和 原先 样本 相同 的 数据 生成 分 布 中 获取 新 的 无 偏 
的 样本 。 

我 们 不 难 从 在 线 学 习 的 情况 中 看 出 随机 梯度 下 降 最 小 化 泛 化 误差 的 原因 。 这 时 
样本 或 者 小 批量 都 是 从 数据 流 (stream ) 中 抽取 出 来 的 。 换 言 之 ， 学 习 器 好 像 是 一 
个 每 次 看 到 新 样本 的 人 ， 每 个 样本 (x,y) 都 来 自 数据 生成 分 布 paata(z,y)， 而 不 是 使 
用 大 小 固定 的 训练 集 。 这 种 情况 下 ， 样 本 永远 不 会 重复 ; 每 次 更 新 的 样本 是 从 分 布 
Paata 中 采样 获得 的 无 俩 样本 。 

在 z 和 yy 是 离散 时 ， 以 上 的 等 价 性 很 容易 得 到 。 在 这 种 情况 下 , 泛 化 误差 
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( 式 (8.2) ) 可 以 表示 为 
J* (8) = 5 `> Pdata (£, y) Lf (a; 0), y), (8.7) 
© y 

上 式 的 准确 梯度 为 

g = Vo J* (0) = 》 》 passal, y) VoL( f(a; 9), y): (8.8) 

z y 

在 式 (8.5) 和 式 (8.6) F, 我 们 已 经 在 对 数 似 然 中 看 到 了 相同 的 结果 ; 现在 我 们 发 现 这 
一 点 在 包括 似 然 的 其 他 函数 L 上 也 是 成 立 的 。 在 一 些 关 于 paata M L 的 温和 假设 下 ， 
在 x 和 w 是 连续 时 也 能 得 到 类 似 的 结果 。 


因此 ， 我 们 可 以 从 数据 生成 分 布 Paata 抽取 小 批量 样本 {a ,..., ™ 以 及 对 
应 的 目标 y2 ， 然 后 计算 该 小 批量 上 损失 函数 关于 对 应 参数 的 梯度 


9= Vo O LEE; 0), y0). (8.9) 





以 此 获得 泛 化 误差 准确 梯度 的 无 偏 估 计 。 最 后 ， 在 泛 化 误差 上 使 用 SGD 方法 在 方向 
g 上 更 新 0。 

当然 ， 这 个 解释 只 能 用 于 样本 没有 重复 使 用 的 情况 。 然 而 ， 除 非 训练 集 特别 大 ， 
通常 最 好 是 多 次 人 遍历 训练 集 。 当 多 次 遍历 数据 集 更 新 时 , 只 有 第 一 遍 满 足 泛 化 误差 梯 
度 的 无 偏 估计 。 但 是 ， 额外 的 遍历 更 新 当然 会 由 于 减 小 训练 误差 而 得 到 足够 的 好 处 ， 
以 抵消 其 带 来 的 训练 误差 和 测试 误差 间 差 距 的 增加 。 

随 着 数据 集 的 规模 迅速 增长 ， 超 越 了 计算 能 力 的 增 速 ， 机 器 学 习 应 用 每 个 样本 
只 使 用 一 次 的 情况 变 得 越 来 越 常见 ， 甚 至 是 不 完整 地 使 用 训练 集 。 在 使 用 一 个 非常 
大 的 训练 集 时 ， 过 拟 合 不 再 是 问题 ， 而 欠 拟 合 和 计算 效率 变 成 了 主要 的 顾虑 。 读 者 
也 可 以 参考 Bottou and Bousquet (2008a) 中 关于 训练 样本 数 日 增长 时 ， 泛 化 误差 上 
计算 瓶颈 影响 的 讨论 。 



































8.2 ”神经 网 络 优化 中 的 挑战 


优化 通常 是 一 个 极其 困难 的 任务 。 传 统 的 机 器 学 习 会 小 心 设计 目标 函数 和 约束 ， 
以 确保 优化 问题 是 凸 的 ， 从 而 避免 一 般 优 化 问题 的 复杂 度 。 在 训练 神经 网 络 时 ， 我 
们 肯定 会 遇 到 一 般 的 非 凸 情况 。 即 使 是 凸 优化 ， 也 并 非 没 有 任何 问题 。 在 这 一 节 中 ， 
我 们 会 总 结 几 个 训练 深度 模型 时 会 涉及 到 的 主要 挑战 。 
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8.2.1 病态 

在 优化 是 函数 时 ,会 遇 到 一 些 挑战 。 这 其 中 最 突出 的 是 Hessian 矩阵 H 的 病 
态 。 这 是 数值 优化 、 凸 优化 或 其 他 形式 的 优化 中 普遍 存在 的 问题 ， 更 多 细节 请 回顾 
第 4.3.1 节 。 

病态 问题 一 般 被 认为 存在 于 神经 网 络 训 练 过 程 中 。 病 态 体 现在 随机 梯度 下 降 会 
“ 卡 ” 在 某 些 情况 ， 此 时 即使 很 小 的 更 新 步 长 也 会 增加 代价 函数 。 

回顾 式 (4.9) ， 代 价 函 数 的 二 阶 泰勒 级 数 展开 预测 梯度 下 降 中 的 -eg 会 增加 








1 
369 Hg- eg'g (8.10) 


到 代价 中 。 当 jeg Hg 超过 eg 9g 时， 梯度 的 病态 会 成 为 问题 。 判 断 病态 是 否 不 利 
于 神经 网 络 训练 任务 ， 我 们 可 以 监测 平方 梯度 范 数 g'g 和 g' Hg。 在 很 多 情况 中 ， 
梯度 范 数 不 会 在 训练 过 程 中 显著 缩小 ， 但 是 9 Hg 的 增长 会 超过 一 个 数量 级 。 其 结 
果 是 尽管 梯度 很 强 ， 学 习 会 变 得 非常 缓慢 ， 因 为 学 习 率 必须 收缩 以 弥补 更 强 的 曲率 。 
如 图 8.1 所 示 ， 成 功 训练 的 神经 网 络 中 ， 梯 度 显著 增加 。 





Gradient norm 
Classification error rate 
© 
wn 





2 1 E] 
—50 0 50 100 150 200 250 0 50 100 150 200 250 


Training time (epochs) Training time (epochs) 





图 8.1: 梯度 下 降 通常 不 会 到 达 任何 类 型 的 临界 点 。 此 示例 中 ， 在 用 于 对 象 检 测 的 卷 积 网 络 的 整个 
训练 期 间 ， 梯 度 范 数 持续 增加 。( 左 ) 各 个 梯度 计算 的 范 数 如 何 随时 间 分 布 的 散 点 图 。 为 了 方便 作 
图 , 每 轮 仅 绘制 一 个 梯度 范 数 。 我 们 将 所 有 梯度 范 数 的 移动 平均 绘制 为 实 曲 线 。 梯 度 范 数 明显 随时 
间 增 加 ， 而 不 是 如 我 们 所 期 望 的 那样 随 训 练 过 程 收敛 到 临界 点 而 减 小 。( 右 ) 尽管 梯度 递增 ,训练 
过 程 却 相 当成 功 。 验 证 集 上 的 分 类 误差 可 以 降低 到 较 低 水 平 。 






































尽管 病态 还 存在 于 除了 神经 网 络 训练 的 其 他 情况 中 ， 有 些 适 用 于 其 他 情况 的 解 
决 病态 的 技术 并 不 适用 于 神经 网 络 。 例 如 ， 牛 顿 法 在 解决 带 有 病态 条 件 的 Hessian 4E 
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阵 的 凸 优 化 问题 时 ， 是 一 个 非常 优秀 的 工具 ,但 是 我 们 将 会 在 以 下 小 节 中 说 明 牛 顿 
法 运用 到 神经 网 络 时 需要 很 大 的 改动 。 


8.2.2 ”局 部 极 小 值 


凸 优化 问题 的 一 个 突出 特点 是 其 可 以 简化 为 寻找 一 个 局 部 极 小 点 的 问题 。 任 何 
一 个 局 部 极 小 点 都 是 全 局 最 小 点 。 有 些 凸 函数 的 底部 是 一 个 平坦 的 区 域 ， 而 不 是 单 
一 的 全 局 最 小 点 ， 但 该 平坦 区 域 中 的 任意 点 都 是 一 个 可 以 接受 的 解 。 优 化 一 个 凸 问 
题 时 ， 硅 发 现 了 任何 形式 的 临界 点 ， 我 们 都 会 知道 已 经 找到 了 一 个 不 错 的 可 行 解 。 

对 于 非 唔 函数 时 ， 如 神经 网 络 ， 有 可 能 会 存在 多 个 局 部 极 小 值 。 事实 上 ,几乎 所 
有 的 深度 模型 基本 上 都 会 有 非常 多 的 局 部 极 小 值 。 然 而 ， 我 们 会 发 现 这 并 不 是 主要 
问题 。 

由 于 模型 可 辨识 性 (model identifiability) 问题 ， 神 经 网 络 和 任意 具有 多 个 等 
效 参 数 化 潜 变 量 的 模型 都 会 具有 多 个 局 部 极 小 值 。 如 果 一 个 足够 大 的 训练 集 可 以 唯 
一 确定 一 组 模型 参数 ， 那 么 该 模型 被 称 为 可 辨认 的 。 带 有 潜 变 量 的 模型 通常 是 不 可 
辨认 的 ， 因 为 通过 相互 交换 潜 变 量 我 们 能 得 到 等 价 的 模型 。 例 如 ， 考 虑 神 经 网 络 的 
第 一 层 ， 我 们 可 以 交换 单元 i 和 单元 j 的 传人 权重 向 量 、 传 出 权重 向 量 而 得 到 等 价 
的 模型 。 如 果 神 经 网 络 有 m 层 , BBA n 个 单元 , 那么 会 有 nl 种 排列 隐藏 单 元 的 
方式 。 这 种 不 可 辨认 性 被 称 为 权重 空间 对 称 性 (weight space symmetry )。 

除了 权重 空间 对 称 性 ， 很 多 神经 网 络 还 有 其 他 导致 不 可 辨认 的 原因 。 例 如 ， 在 
任意 整流 线性 网 络 或 者 maxout 网 络 中 ,我 们 可 以 将 传人 权重 和 偏 置 扩大 a 倍 ， 然 
后 将 传 出 权重 扩大 们 ， 而 保持 模型 等 价 。 这 意味 着 ， 如 果 代 价 函 数 不 包 括 如 权重 
衰减 这 种 直接 依赖 于 权重 而 非 模型 输出 的 项 ， 那 么 整流 线性 网 络 或 者 maxout 网 络 
的 每 一 个 局 部 极 小 点 都 在 等 价 的 局 部 极 小 值 的 (m x n) 维 双 曲 线 上 。 

这 些 模 型 可 辨识 性 问题 意味 着 神经 网 络 代价 函数 具有 非常 多 、 甚 至 不 可 数 无 限 
多 的 局 部 极 小 值 。 然 而 ， 所 有 这 些 由 于 不 可 辨识 性 问题 而 产生 的 局 部 极 小 值 都 有 相 
同 的 代价 函数 值 。 因 此 ， 这 些 局 部 极 小 值 并 非 是 非 凸 所 带 来 的 问题 。 

如 果 局 部 极 小 值 相 比 全 局 最 小 点 拥有 很 大 的 代价 ， 局 部 极 小 值 会 带 来 很 大 的 隐 
患 。 我 们 可 以 构建 没有 隐藏 单元 的 小 规模 神经 网 络 ， 其 局 部 极 小 值 的 代价 比 全 局 最 
小 点 的 代价 大 很 多 (Sontag and Sussman, 1989; Brady et al., 1989; Gori and Tesi, 
1992). WREAK AMEER ILAS, AB ARORA EP RE EERIE 
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带 来 极 大 的 问题 。 

对 于 实际 中 感 兴趣 的 网 络 ， 是 否 存 在 大 量 代价 很 高 的 局 部 极 小 值 ， 优 化 算法 是 
否 会 碰 到 这 些 局 部 极 小 值 ， 都 是 尚未 解决 的 公开 问题 。 多 年 来 ,大 多 数 从 业者 认为 局 
部 极 小 值 是 困扰 神经 网 络 优化 的 常见 问题 。 如 今 ， 情况 有 所 变化 。 这 个 问题 仍然 是 学 
术 界 的 热点 问题 , 但 是 学 者 们 现在 猜想 ,对 于 足够 大 的 神经 网 络 而 言 ， 大 部 分 局 部 极 
小 值 都 具有 很 小 的 代价 函数 ， 我 们 能 不 能 找到 真正 的 全 局 最 小 点 并 不 重要 ， 而 是 需 
要 在 参数 空间 中 找到 一 个 代价 很 小 (但 不 是 最 小 ) 的 点 (Saxe et al., 2013; Dauphin 
et al., 2014; Goodfellow et al., 2015; Choromanska et al., 2014). 

很 多 从 业者 将 神经 网 络 优化 中 的 所 有 困难 都 归结 于 局 部 极 小 值 。 我 们 鼓励 从 业 
者 要 仔细 分 析 特 定 的 问题 。 一 种 能 够 排除 局 部 极 小 值 是 主要 问题 的 检测 方法 是 画 出 
梯度 范 数 随时 间 的 变化 。 如 果 梯 度 范 数 没 有 缩小 到 一 个 微小 的 值 ， 那 么 该 问题 既 不 
是 局 部 极 小 值 ， 也 不 是 其 他 形式 的 临界 点 。 在 高 维 空间 中 ， 很 难 明确 证 明 局 部 极 小 
值 是 导致 问题 的 原因 。 许 多 并 非 局 部 极 小 值 的 结构 也 具有 很 小 的 梯度 。 


8.2.3 高原、 鞍点 和 其 他 平坦 区 域 








对 于 很 多 高 维 非 凸 函数 而 言 ， 局 部 极 小 值 (以 及 极 大 值 ) 事实 上 都 远 少 于 另 一 
类 梯度 为 零 的 点 : 鞍点 。 鞍 点 附近 的 某 些 点 比 鞍 点 有 更 大 的 代价 ， 而 其 他 点 则 有 更 
小 的 代价 。 在 鞍点 处 ，Hessian 窍 阵 同 时 具有 正 负 特 征 值 。 位 于 正 特 征 值 对 应 的 特征 
向 量 方向 的 点 比 鞍 点 有 更 大 的 代价 ， 反 之， 位 于 负 特 征 值 对 应 的 特征 问 量 方向 的 点 
有 更 小 的 代价 。 我 们 可 以 将 鞍点 视 为 代价 函数 某 个 横 截 面 上 的 局 部 极 小 点 ， 同 时 也 
可 以 视 为 代价 函数 某 个 横 截 面 上 的 局 部 极 大 点 。 图 4.5 给 了 一 个 示例 。 

多 类 随机 函数 表现 出 以 下 性 质 : 低 维 空 间 中 ， 局 部 极 小 值 很 普遍 。 在 更 高 维 空 
间 中 ,局 部 极 小 值 很 罕见 ， 而 鞍点 则 很 常见 。 对 于 这 类 也 数 f: R” 一 RMA, E 
点 和 局 部 极 小 值 的 数目 比率 的 期 望 随 ”指数 级 增长 。 我 们 可 以 从 直觉 上 理解 这 种 现 
象 一 一 Hessian 和 矩阵 在 局 部 极 小 点 处 只 有 正 特 征 值 。 而 在 蒂 点 处 ，Hessian 4E REN [a] 
时 具有 正 负 特 征 值 。 试 想 一 下 ， 每 个 特征 值 的 正 负 号 由 抛 硬币 决定 。 在 一 维 情况 下 ， 
很 容易 抛 重 币 得 到 正面 朝 上 一 次 而 获取 局 部 极 小 点 。 在 维 空间 中 ， 要 抛掷 n 次 便 
币 都 正面 朝 上 的 难度 是 指数 级 的 。 具 体 可 以 参考 Dauphin et al. (2014)， 它 回顾 了 相 
关 的 理论 工作 。 

很 多 随机 函数 一 个 惊人 性 质 是 ， 当 我 们 到 达 代 价 较 低 的 区 间 时 ，Hessian 矩阵 
的 特征 值 为 正 的 可 能 性 更 大 。 和 抛 硬币 类 比 ， 这 意味 着 如 果 我 们 处 于 低 代价 的 临界 
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点 时 , TORR RET TET LE n 次 的 概率 更 大 。 这 也 意味 着 , 局 部 极 小 值 具 有 低 代价 的 可 
能 性 比 高 代价 要 大 得 多 。 具 有 高 代价 的 临界 点 更 有 可 能 是 鞍点 。 具 有 极 高 代价 的 临 
界 点 就 很 可 能 是 局 部 极 大 值 了 。 

以 上 现象 出 现在 许多 种 类 的 随机 函数 中 。 那 么 是 否 在 神经 网 络 中 也 有 发 生 呢 ? 
Baldi and Hornik (1989) 从 理论 上 证 明 ,， 不 具 非 线性 的 浅 层 自 编码 器 〈 第 十 四 章 中 
将 介绍 的 一 种 将 输出 训练 为 输入 拷贝 的 前 馈 网 络 ) 只 有 全 局 极 小 值 和 较 点 ， 没 有 代 
价 比 全 局 极 小 值 更 大 的 局 部 极 小 值 。 他 们 还 发 现 这 些 结果 能 够 扩展 到 不 具 非 线性 的 
更 深 的 网 络 上 , 不 过 没有 证 明 。 这 类 网 络 的 输出 是 其 输入 的 线性 函数 , 但 它们 仍然 有 
助 于 分 析 非 线性 神经 网 络 模型 ， 因 为 它们 的 损失 函数 是 关于 参数 的 非 凸 函数 。 这 类 
网 络 本 质 上 是 多 个 矩阵 组 合 在 一 起 。Saxe et al. (2013) 精确 解析 了 这 类 网 络 中 完整 
的 学 习 动 态 ， 表 明 这 些 模型 的 学 习 能 够 捕捉 到 许多 在 训练 具有 非 线 性 激活 函数 的 深 
度 模 型 时 观察 到 的 定性 特征 。Dauphin et al. (2014) 通过 实验 表明 ， 真 实 的 神经 网 
络 也 存在 包含 很 多 高 代价 鞍点 的 损失 困 数 。Choromanska et al. (2014) 提供 了 额外 
的 理论 论点 ， 表 明 另 一 类 和 神经 网 络 相关 的 高 维 随机 函数 也 满足 这 种 情况 。 

鞍点 激增 对 于 训练 算法 来 说 有 哪些 影响 呢 ? 对 于 只 使 用 梯度 信息 的 一 阶 优 化 算 
法 而 言 ， 目 前 情况 还 不 清楚 。 园 点 附近 的 梯度 通常 会 非常 小 。 另 一 方面 ,实验 中 梯度 
下 降 似 乎 可 以 在 许多 情况 下 逃离 鞍点 。Goodfellow et al. (2015) 可 视 化 了 最 新 神经 
网 络 的 几 个 学 习 轨 迹 ， 图 8.2 给 了 一 个 例子 。 这 些 可 视 化 显示 ， 在 突出 的 鞍点 附近 ， 
代价 函数 都 是 平坦 的 ， 权 重 都 为 零 。 但 是 他 们 也 展示 了 梯度 下 降 轨 迹 能 够 迅速 逸 出 
该 区 间 。Goodfellow et al. (2015) 也 主张 ， 应 该 可 以 通过 分 析 来 表明 连续 时 间 的 梯度 
下 降 会 逃离 而 不 是 吸引 到 鞍点 ， 但 对 梯度 下 降 更 现实 的 使 用 场景 来 说 ， 情 况 或 许 会 
有 所 不 同 。 

对 于 牛顿 法 而 言 ， 鞍 点 显然 是 一 个 问题 。 梯 度 下 降 旨 在 朝 “ 下 坡 ” 移动 ， 而 非 
明确 寻求 临界 点 。 而 牛顿 法 的 目标 是 寻求 梯度 为 零 的 点 。 如 果 没 有 适当 的 修改 ， 牛 
顿 法 就 会 跳 进 一 个 鞍点 。 高 维 空间 中 坑 点 的 激增 或 许 解释 了 在 神经 网 络 训 练 中 为 什 
么 二 阶 方法 无 法 成 功 取代 梯度 下 降 。Dauphin et al. (2014) 介绍 了 二 阶 优化 的 无 鞍 
牛顿 法 ( saddle-free Newton method )， 并 表明 和 传统 算法 相 比 有 显著 改进 。 二 阶 方 
法 仍然 难以 扩展 到 大 型 神经 网 络 ， 但 是 如 果 这 类 无 鞍 算 法 能 够 扩展 的 话 ， 还 是 很 有 
希望 的 。 

除了 极 小 值 和 鞍点 ， 还 存在 其 他 梯度 为 零 的 点 。 例 如 从 优化 的 角度 看 与 较 点 很 
相似 的 极 大 值 , 很 多 算法 不 会 被 吸引 到 极 大 值 , 除了 未 经 修改 的 牛顿 法 。 和 极 小 值 一 
样 ， 许 多 种 类 的 随机 函数 的 极 大 值 在 高 维 空间 中 也 是 指数 级 稀少 。 
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图 8.2: 神经 网 络 代价 函数 的 可 视 化 。 这 些 可 视 化 对 应 用 于 真实 对 象 识别 和 自然 语言 处 理 任务 的 前 
馈 神 经 网 络 、 卷 积 网 络 和 循环 网 络 而 言 是 类 似 的 。 令 人 惊讶 的 是 , 这 些 可 视 化 通常 不 会 显示 出 很 多 
明显 的 障碍 。 大 约 2012 年 ， 在 随机 梯度 下 降 开始 成 功 训练 非常 大 的 模型 之 前 ， 相 比 这 些 投影 所 显 
示 的 神经 网 络 代价 函数 的 表面 通常 被 认为 有 更 多 的 非 凸 结构 。 该 投影 所 显示 的 主要 障碍 是 初始 参 
数 附近 的 高 代价 鞍点 ， 但 如 由 蓝 色 路 径 所 示 ，SGD 训练 轨迹 能 轻易 地 逃脱 该 通 点 。 大 多 数 训 练 时 
间 花 费 在 横 穿 代价 函数 中 相对 平坦 的 峡谷 ， 可 能 由 于 梯度 中 的 高 噪声 、 或 该 区 域 中 Hessian 矩阵 
的 病态 条 件 ,或 者 需要 经 过 间接 的 弧 路 径 绕 过 图 中 可 见 的 高 “ 山 ”。 图 经 Goodfellow et al. (2015) 
许可 改编 。 


















































也 可 能 存在 恒 值 的 、 宽 有 旦 平坦 的 区 域 。 在 这 些 区 域 ， 梯 度 和 Hessian 和 矩阵 都 是 
零 。 这 种 退化 的 情形 是 所 有 数值 优化 算法 的 主要 问题 。 在 凸 问题 中 ， 一 个 宽 而 平坦 
的 区 间 肯 定 包 含 全 局 极 小 值 ， 但 是 对 于 一 般 的 优化 问题 而 言 ， 这 样 的 区 域 可 能 会 对 
应 着 目标 函数 中 一 个 较 高 的 值 。 


8.2.4 悬崖 和 梯度 爆炸 


多 层 神经 网 络 通常 存在 像 悬 崖 一 样 的 斜率 较 大 区 域 ， 如 图 8.3 所 示 。 这 是 由 于 几 
个 较 大 的 权重 相 乘 导致 的 。 遇 到 斜率 极 大 的 悬 岩 结构 时 ， 梯 度 更 新 会 很 大 程度 地 改 
变 参 数值 ， 通 常会 完全 跳 过 这 类 悬崖 结构 。 

不 管 我 们 是 从 上 还 是 从 下 接近 悬崖 ， 情 况 都 很 糟糕 ， 但 幸运 的 是 我 们 可 以 用 使 
用 第 10.11.1 节 介绍 的 启发 式 梯 度 截断 ( gradient clipping ) 来 避免 其 严重 的 后 果 。 其 
基本 想法 源 自 梯度 并 没有 指明 最 佳 步 长 ， 只 说 明了 在 无 限 小 区 域内 的 最 佳 方向 。 当 
传统 的 梯度 下 降 算法 提议 更 新 很 大 一 步 时 ， 启 发 式 梯度 截断 会 干涉 来 减 小 步 长 ， 从 
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图 8.3: 高 度 非 线性 的 深度 神经 网 络 或 循环 神经 网 络 的 目标 函数 通常 包含 由 几 个 参数 连 乘 而 导致 的 
参数 空间 中 尖锐 非 线 性 。 这 些 非 线性 在 某 些 区 域 会 产生 非常 大 的 导数 。 当 参数 接近 这 样 的 悬崖 区 
域 时 ,梯度 下 降 更 新 可 以 使 参数 弹射 得 非常 远 ， 可 能 会 使 大 量 已 完成 的 优化 工作 成 为 无 用 功 。 图 
经 Pascanu et al. (2013a) 许可 改编 。 









































而 使 其 不 大 可 能 走出 梯度 近似 为 最 陡 下 降 方 向 的 悬 峙 区 域 。 悬 崖 结构 在 循环 神经 网 
络 的 代价 函数 中 很 常见 ， 因 为 这 类 模型 会 涉及 到 多 个 因子 的 相 习 ,其 中 每 个 因子 对 
应 一 个 时 间 步 。 因 此 ， 长 期 时 间 序 列 会 产生 大 量 相 乘 。 








8.2.5 ”长 期 依赖 


当 计 算 图 变 得 极 深 时 ， 神 经 网 络 优化 算法 会 面临 的 另外 一 个 难题 就 是 长 期 依 
赖 问题 一 一 由 于 变 次 的 结构 使 模型 形 失 了 学 习 到 先前 信息 的 能 力 ， 让 优化 变 得 极 
其 困难 。 深 层 的 计算 图 不 仅 存 在 于 前 馈 网 络 ， 还 存在 于 之 后 介绍 的 循环 网 络 中 (在 
第 十 章 中 描述 )。 因 为 循环 网 络 要 在 很 长 时 间 序 列 的 各 个 时 刻 重复 应 用 相同 操作 来 构 
建 非常 深 的 计算 图 ， 并 日 模 型 参数 共享 ， 这 使 问题 更 加 凸显 。 

例如 ,假设 某 个 计算 图 中 包含 一 条 反复 与 矩阵 W 相 乘 的 路 径 。 那 么 t+ 步 后 ， 相 
当 于 乘 以 We 假设 W 有 特征 值 分 解 W= Vdiag( A) V t, 在 这 种 简单 的 情况 下 ， 
很 容易 看 出 

W = ( Vdiag(A) V €) = Vdiag(A)' V+. (8.11) 


HRE A; 不 在 1 附近 时 , AER EAR 1 则 会 爆炸 ; 若 小 于 1 时 则 会 消失 。 梯 
度 消失 与 爆炸 问题 (vanishing and exploding gradient problem ) 是 指 该 计算 图 上 的 
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梯度 也 会 因为 diag( A) 大 幅度 变化 。 梯 度 消失 使 得 我 们 难以 知道 参数 朝 哪个 方向 移 
动能 够 改进 代价 函数 ， 而 梯度 爆炸 会 使 得 学 习 不 稳定 。 之 前 描述 的 促使 我 们 使 用 梯 
度 截 断 的 悬崖 结构 便 是 梯度 爆炸 现象 的 一 个 例子 。 

此 处 描述 的 在 各 时 间 步 重复 与 W 相 乘 非常 类 似 于 寻求 矩阵 W 的 最 大 特征 值 及 
对 应 特征 向 量 的 RDA (power method )。 从 这 个 观点 来 看 ，z' W 最 终 会 丢弃 x 
中 所 有 与 W 的 主 特征 向 量 正 交 的 成 分 。 

循环 网 络 在 各 时 间 步 上 使 用 相同 的 矩阵 玉 ， 而 前 馈 网 络 并 没有 。 因 而 即使 是 非 
第 深层 的 前 馈 网 络 也 能 一 定 程度 上 避免 梯度 消失 与 爆炸 问题 (Sussillo, 2014)。 

在 更 详细 地 描述 循环 网 络 之 后 ， 我 们 将 会 在 第 10.7 市 进一步 讨论 循环 网 络 训 练 
中 的 挑战 。 








8.2.6 ” 非 精 确 梯度 


大 多 数 优化 算法 的 先决 条 件 都 是 我 们 知道 精确 的 梯度 或 是 再 essian 和 矩阵。 在 实践 
中 ,通常 这 些 量 会 有 噪声 ， 甚 至 是 有 偏 的 估计。 几乎 每 一 个 深度 学 习 算 法 都 需要 基 
于 采样 的 估计 ， 至 少 使 用 训练 样本 的 小 批量 来 计算 梯度 。 

在 其 他 情况 ， 我 们 希望 最 小 化 的 目标 函数 实际 上 是 难以 处 理 的 。 当 目 标 函 数 不 
可 解 时 , 通常 其 梯度 也 是 难以 处 理 的 。 在 这 种 情况 下 ,我 们 只 能 近似 梯度 。 这些 问 题 
主要 出 现在 第 三 部 分 中 更 高 级 的 模型 中 。 例 如 ， 对 比 散 度 是 用 来 近似 玻 尔 效 曼 机 中 
难以 处 理 的 对 数 似 然 梯度 的 一 种 技术 。 

各 种 神经 网 络 优化 算法 的 设计 都 考虑 到 了 梯度 估计 的 缺陷 。 我 们 可 以 选择 比 真 
实 损失 函数 更 容易 佑 计 的 代理 损失 函数 来 避免 这 个 问题 。 











8.2.7 ”局 部 和 全 局 结构 间 的 弱 对 应 


迄今 为 止 , 我 们 讨论 的 许多 问题 都 是 关于 损失 函数 在 单个 点 的 性 质 一 一 耕 7(9) 
是 当前 点 9 的 病态 条 件 ， 或 者 9 在 悬崖 中 ,或 者 9 是 一 个 下 降 方 向 不 明显 的 逻 点 ， 
那么 会 很 难 更 新 当前 步 。 

如 果 该 方向 在 局 部 改进 很 大 ， 但 并 没有 指向 代价 低 得 多 的 遥远 区 域 ， 那 么 我 们 
有 可 能 在 单 点 处 克服 以 上 所 有 困难 ， 但 仍然 表现 不 佳 。 

Goodfellow et al. (2015) 认为 大 部 分 训练 的 运行 时 间 取 决 于 到 达 解 决 方案 的 轨 





wwaibbt.com DO000000 


do zr/ 25006 


248 第 八 章 深度 模型 中 的 优化 











迹 长 度 。 如 图 8.2 所 示 ， 学 习 轨 迹 将 花费 大 量 的 时 间 探 寻 一 个 围绕 山形 结构 的 宽 弧 。 


点 ， 但 在 实践 中 神经 网 络 不 会 到 达 任 何 一 种 临界 点 。 图 8.1 表明 神经 网 络 通常 不 会 到 
达 梯 度 很 小 的 区 域 。 甚 至 ,这 些 临 界 点 不 一 定 存在 。 例 如, 损失 函数 — log p(y | z; 6) 
可 以 没有 全 局 最 小 点 ， 而 是 当 随 着 训练 模型 逐渐 稳定 后 ， 渐 近 地 收 敛 于 某 个 值 。 对 
于 具有 离散 的 y 和 softmax 分 布 p(y | 四 的 分 类 器 而 言 ， 若 模型 能 够 正确 分 类 训 
练 集 上 的 每 个 样本 ， 则 负 对 数 似 然 可 以 无 限 趋 近 但 不 会 等 于 零 。 同 样 地 ， 实 值 模型 
ply | £) = N (y; f(0), 07) 的 负 对 数 似 然 会 趋向 于 负 无 穷 一 一 如 果 /6) 能 够 正确 预 
测 所 有 训练 集中 的 目标 y， 学 习 算法 会 无 限制 地 增加 6。 图 8.4 给 出 了 一 个 失败 的 例 
子 ， 即 使 没有 局 部 极 小 值 和 鞍点 ， 该 例 还 是 不 能 从 局 部 优化 中 找到 一 个 良好 的 代价 
函数 值 。 











J(8) 


0 











图 8.4: 如 果 局 部 表面 没有 指向 全 局 解 ， 基 于 局 部 下 坡 移动 的 优化 可 能 就 会 失败 。 这 里 我 们 提供 一 
个 例子 , 说明 即使 在 没有 鞍点 或 局 部 极 小 值 的 情况 下 ,优化 过 程 会 如 何 失败 。 此 例 中 的 代价 函数 仅 
包含 朝向 低 值 而 不 是 极 小 值 的 渐 近 线 。 在 这 种 情况 下 ， 造 成 这 种 困难 的 主要 原因 是 初始 化 在 “ 山 ?” 
的 错误 一 侧 ， 并 且 无 法 遍历 。 在 高 维 空间 中 ,学 习 算 法 通常 可 以 环绕 过 这 样 的 高 山 ， 但 是 相关 的 轨 
迹 可 能 会 很 长 ， 并 且 导 致 过 长 的 训练 时 间 ， 如 图 8.2 所 示 。 









































未 来 的 研究 需要 进一步 探索 影响 学 习 轨 迹 长 度 和 更 好 地 表征 训练 过 程 的 结 

许多 现 有 研究 方法 在 求解 具有 困难 全 局 结构 的 问题 时 ， 旨 在 寻求 良好 的 初始 点 ， 
而 不 是 开发 非 局 部 范围 更 新 的 算法 。 

梯度 下 降 和 基本 上 所 有 的 可 以 有 效 训 练 神 经 网 络 的 学 习 算 法 ， 都 是 基于 局 部 较 
小 更 新 。 之 前 的 小 节 主 要 集中 于 为 何 这 些 局 部 范围 更 新 的 正确 方向 难以 计算 。 我 们 








ww ai bbt.com DO000000 


dourbz/350DFo 


8.2 神经 网 络 优 化 中 的 挑战 249 





也 许 能 计算 目标 函数 的 一 些 性 质 ， 如 近似 的 有 偏 梯度 或 正确 方向 估计 的 方差 。 在 这 
些 情况 下 ， 难 以 确定 局 部 下 降 能 否定 义 通 向 有 效 解 的 足够 短 的 路 径 ， 但 我 们 并 不 能 
真 的 遵循 局 部 下 降 的 路 径 。 目 标 函 数 可 能 有 诸如 病态 条 件 或 不 连续 梯度 的 问题 ， 使 
得 梯度 为 目标 函数 提供 较 好 近似 的 区 间 非 常 小 。 在 这 些 情况 下 ， 步 长 为 e 的 局 部 下 
降 可 能 定义 了 到 达 解 的 合理 的 短路 经 ， 但 是 我 们 只 能 计算 步 长 为 6 冬 e 的 局 部 下 降 
方向 。 在 这 些 情 况 下 ， 局 部 下 降 或 许 能 定义 通 向 解 的 路 径 ， 但 是 该 路 径 包 含 很 多 次 
更 新 ， 因 此 遵循 该 路 径 会 带 来 很 高 的 计算 代价 。 有 了 时， 比如 说 当 目 标 函数 有 一 个 宽 
而 平 的 区 域 ,或 是 我 们 试图 寻求 精确 的 临界 点 (通常 来 说 后 一 种 情况 只 发 生 于 显 式 
求解 临界 点 的 方法 ,如 牛顿 法 ) 时 , 局 部 信息 不 能 为 我 们 提供 任何 指导 。 在 这 些 情况 
下 ， 局 部 下 降 完 全 无 法 定义 通 向 解 的 路 径 。 在 其 他 情况 下 ， 局 部 移动 可 能 太 过 贪心 ， 
HE PROT oh, SAAR) TCH, WHA 8.4 所 示 ， 或 者 是 用 售 近 求 远 的 
方法 来 求解 问题 ， 如 图 8.2 所 示 。 目 前 ,我们 还 不 了 解 这 些 问题 中 的 哪 一 个 与 神经 网 

















不 管 哪个 问题 最 重要 ， 如 果 存 在 一 个 区 域 , 我 们 遵循 局 部 下 降 便 能 合理 地 直接 
到 达 某 个 解 ， 并 且 我 们 能 够 在 该 良好 区 域 上 初始 化 学 习 ， 那 么 这 些 问题 都 可 以 避免 。 
最 终 的 观点 还 是 建议 在 传统 优化 算法 上 研究 怎样 选择 更 佳 的 初始 化 点 ， 以 此 来 实现 
目标 更 切实 可 行 。 


8.2.8 ”优化 的 理论 限制 


一 些 理 论 结果 表明 ， 我 们 为 神经 网 络 设计 的 任何 优化 算法 都 有 性 能 
and Rivest, 1992; Judd, 1989; Wolpert and MacReady, 1997)。 通 常 这 
响 神 经 网 络 在 实践 中 的 应 用 。 

一 些 理论 结果 仪 适 用 于 神经 网 络 的 单元 输出 离散 值 的 情况 。 然 而 ， 大 多 数 神经 
网 络 单元 输出 光滑 的 连续 值 , 使 得 局 部 搜索 求解 优化 可 行 。 一 些 理论 结果 表明 , 存在 
某 类 问题 是 不 可 解 的 ， 但 很 难 判断 一 个 特定 问题 是 否 属 于 该 类 。 其 他 结果 表明 ， 寻 
找 给 定 规 模 的 网 络 的 一 个 可 行 解 是 很 困难 的 ， 但 在 实际 情况 中 ， 我 们 通过 设置 更 多 
参数 ， 使 用 更 大 的 网 络 ， 能 轻松 找到 可 接受 的 解 。 此 外 ， 在 神经 网 络 训练 中 ， 我 们 
通常 不 关注 某 个 函数 的 精确 极 小 点 ， 而 只 关注 将 其 值 下 降 到 足够 小 以 获得 一 个 良好 
的 泛 化 误差 。 对 优化 算法 是 否 能 完成 此 目标 进行 理论 分 析 是 非常 困难 的 。 因 此 ， 研 
究 优 化 算法 更 现实 的 性 能 上 界 仍然 是 学 术 界 的 一 个 重要 目标 。 
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8.3 ”基本 算法 
之 前 我 们 已 经 介绍 了 梯度 下 降 (第 4.3 节 )， 即 沿 着 整个 训练 集 的 梯度 方向 下 降 。 


这 可 以 使 用 随机 梯度 下 降 很 大 程度 地 加 速 ， 沿 着 随机 挑选 的 小 批量 数据 的 梯度 下 降 
方向 ， 就 像 第 5.9 节 和 第 8.1.3 节 中 讨论 的 一 样 。 


8.3.1 ”随机 梯度 下 降 


随机 梯度 下 降 (SGD ) 及 其 变种 很 可 能 是 一 般 机 器 学 习 中 应 用 最 多 的 的 优化 算 
法 ,特别 是 在 深度 学 习 中 。 如 第 8.1.3 节 中 所 讨论 的 ,按照 数据 生成 分 布 抽取 me A) 
批量 (独立 同 分 布 的 ) 样本 ， 通 过 计算 它们 梯度 均值 ， 我 们 可 以 得 到 梯度 的 无 偏 信 
ite 

算法 8.1 展 示 了 如 何 沿 着 这 个 梯度 的 估计 下 降 。 














算法 8.1 随机 梯度 下 降 (SGD ) ÆR k 个 训练 迭代 的 更 新 
Require: 学 习 率 ep 
Require: 初始 参数 0 
while 停止 准则 未 满足 do 
从 训练 集中 采 包 含 m 个 样本 {2,0 ac) 的 小 批量 ， 其 中 rO 对 应 目标 为 
y. 
计算 梯度 估计 : ge 二 二 Ve dX, Lf (a; 6), yO) 
应 用 更 新 : 0 4 0 -— e 


end while 








SGD 算法 中 的 一 个 关键 参数 是 学 习 率 。 之 前 ， 我 们 介绍 的 SGD 使 用 固定 的 学 
习 率 。 在 实践 中 ， 有 必要 随 着 时 间 的 推移 逐渐 降低 学 习 率 ， 因 此 我 们 将 第 步 迭 代 
的 学 习 率 记 作 eko 

这 是 因为 SGD 中 梯度 估计 引入 的 噪声 源 〈mm 个 训练 样本 的 随机 采样 ) 并 不 会 
在 极 小 点 处 消失 。 相 比 之 下 ， 当 我 们 使 用 批量 梯度 下 降 到 达 极 小 点 时 ， 整 个 代价 函 
数 的 真实 梯度 会 变 得 很 小 , 之 后 为 0, 因此 批量 梯度 下 降 可 以 使 用 固定 的 学 习 率 。 保 
证 SGD 收敛 的 一 个 充分 条 件 是 





> ex =o, (8.12) 
k=1 
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实践 中 ， 一 般 会 线性 衰减 学 习 率 直到 第 7 次 迭代 : 





Ek = (1 — a)eo + aer (8.14) 





其 中 as E, 在 7 PERZIE, ME e 保持 常数 。 

学 习 率 可 通过 试验 和 误差 来 选取 ,通常 最 好 的 选择 方法 是 监测 目标 函数 值 随时 
间 变 化 的 学 习 曲 线 。 与 其 说 是 科学 ， 这 更 像 是 一 门 艺术 ， 我 们 应 该 谨慎 地 参考 关于 
这 个 问题 的 大 部 分 指导 。 使 用 线性 策略 时 ， 需 要 选择 的 参数 为 e，er，7r。 通常 7 被 
设 为 需要 反复 遍历 训练 集 几 百 次 的 迭代 次 数 。 通 常 er 应 设 为 大 约 eo 的 1%。 主 要 问 
题 是 如 何 设置 coo A eo 太 大 ， 学 习 曲 线 将 会 剧烈 振荡 ;代价 函数 值 通常 会 明显 增 
加 。 温 和 的 振荡 是 良好 的 ， 容 易 在 训练 随机 代价 函数 (例如 使 用 Dropout 的 代价 也 
BO) 时 出 现 。 如 果 学 习 率 太 小 ， 那 么 学 习 过 程 会 很 缓慢 。 如 果 初 始 学 习 率 太 低 ,那么 
学 习 可 能 会 卡 在 一 个 相当 高 的 代价 值 。 通常 ， 就 总 训练 时 间 和 最 终 代 价值 而 言 ， 最 
优 初 始 学 习 率 的 效果 会 好 于 大 约 迭 代 100 次 左右 后 最 佳 的 效果 。 因 此 ， 通常 最 好 是 
检测 最 早 的 几 轮 迭代 ， 选 择 一 个 比 在 效果 上 表现 最 佳 的 学 习 率 更 大 的 学 习 率 , 但 又 
不 能 太 大 导致 严重 的 震 沪 。 

SGD 及 相关 的 小 批量 亦 或 更 广义 的 基于 梯度 优化 的 在 线 学 习 算 法 ， 一 个 重要 的 
性 质 是 每 一 步 更 新 的 计算 时 间 不 依赖 训练 样本 数目 的 多 寞 。 即 使 训练 样本 数目 非常 
大 时 ， 它 们 也 能 收敛 。 对 于 足够 大 的 数据 集 ，SGD 可 能 会 在 处 理 整 个 训练 集 之 前 就 
收敛 到 最 终 测 试 集 误 差 的 某 个 固定 容 差 范围 内 。 

研究 优化 算法 的 收敛 率 , 一 般 会 衡量 额外 误差 ( excess error ) .J(0) 一 mine J(9)， 
即 当 前 代价 函数 超出 最 低 可 能 代价 的 量 。SGD MAFA, 步 迭 代 后 的 额外 
误差 量 级 是 Oz) ERD Pæ O(%)。 除 非 假定 额外 的 条 件 ， 否 则 这 些 界限 
不 能 进一步 改进 。 批 量 梯度 下 降 在 理论 上 比 随机 梯度 下 降 有 更 好 的 收敛 率 。 然 而 ， 
Cramér-Rao 界限 (Cramér, 1946; Rao, 1945) 指出 ， 泛 化 误差 的 下 降 速度 不 会 快 于 
O(f)。Bottou and Bousquet (2008b) 因此 认为 对 于 机 器 学 习 任 务 ， 不 值得 探寻 收敛 
RF O) 的 优化 算法 一 一 更 快 的 收敛 可 能 对 应 着 过 拟 合 。 此 外 , 渐 近 分 析 掩盖 了 随 
机 梯度 下 降 在 少量 更 新 步 之 后 的 很 多 优点 。 对 于 大 数据 集 ，SGD 只 需 非 常 少量 样本 
计算 梯度 从 而 实现 初始 快速 更 新 ， 远 远 超过 了 其 缓慢 的 渐 近 收敛 。 本 章 剩余 部 分 介 
绍 的 大 多 数 算法 在 实践 中 都 受益 于 这 种 性 质 ， 但 是 损失 了 常数 倍 O(z) 的 渐 近 分 析 。 
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我 们 也 可 以 在 学 习 过 程 中 逐渐 增 大 小 批量 的 大 小 ， 以 此 权衡 批量 梯度 下 降 和 随机 梯 


度 下 降 两 者 的 优点 。 
了 解 SGD 更 多 的 信息 ， 请 查看 Bottou (1998)。 


8.3.2 ”动量 








虽然 随机 梯度 下 降 仍然 是 非常 受 欢 迎 的 优化 方法 ， 但 其 学 习 过 程 有 时 会 很 慢 。 
动量 方法 (Polyak, 1964) 旨 在 加 速 学 习 ,， 特别 是 处 理 高 曲率 、 小 但 一 致 的 梯度 , 或 是 
人 带 噪声 的 梯度 。 动 量 算法 积累 了 之 前 梯度 指数 级 衰减 的 移动 平均 ， 并 且 继续 沿 该 方 
向 移动 。 动 量 的 效果 如 图 8.5 所 示 。 


一 20 





一 30 
一 30 —20 一 10 0 10 20 





图 8.5: 动量 的 主要 目的 是 解决 两 个 问题 ，Hessian 和 矩阵 的 病态 条 件 和 随机 梯度 的 方差 。 我 们 通 
过 此 图 说 明 动 量 如 何 克 服 这 两 个 问题 的 第 一 个 。 等 高 线 描绘 了 一 个 二 次 损失 函数 ( 具有 病态 条 





件 的 Hessian 矩阵 )。 横 跨 轮廓 的 红色 路 径 表 示 动 量 学 习 规则 所 遵循 的 路 径 ， 它 使 该 函数 最 小 化 。 
我 们 在 该 路 径 的 每 个 步骤 画 一 个 箭头 ， 表 示 梯 度 下 降 将 在 该 点 采取 的 步 又。 我 们 可 以 看 到 ,一 个 病 
态 条件 的 二 次 目标 函数 看 起 来 像 一 个 长 而 窗 的 山谷 或 具有 陡峭 边 的 峡谷 。 动 量 正确 地 纵向 穿 过 峡 
谷 ， 而 普通 的 梯度 步骤 则 会 浪费 时 间 在 峡谷 的 罕 轴 上 来 回 移 动 。 比 较 图 4.6 ， 它 也 显示 了 没有 动 
量 的 梯度 下 降 的 行为 。 















































从 形式 上 看 ， 动 量 算法 引入 了 变量 v 充当 速度 角色 一 一 它 代 表 参 数 在 参数 空间 
移动 的 方向 和 速率 。 速 度 被 设 为 负 梯度 的 指数 衰减 平均 。 名 称 动 量 (momentum ) 
来 自 物理 类 比 ， 根 据 牛顿 运动 定律 ， 负 梯度 是 移动 参数 空间 中 粒子 的 力 。 动 量 在 物 
理学 上 定义 为 质量 乘 以 速度 。 在 动量 学 习 算法 中 ， 我 们 假设 是 单位 质量 ， 因 此 速度 
向 量 v 也 可 以 看 作 是 粒子 的 动量 。 超 参数 a € [0,1) 决定 了 之 前 梯度 的 贡献 衰减 得 有 
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多 快 。 更 新 规则 如 下 : 


1 ~ i i 
v 4+ QV— eVo (£3 2:0). 9) (8.15) 
ee a (8.16) 


速度 v 累积 了 梯度 元 素 Volt Dil L(A; 6), y)). FF c, a 越 大 , 之 前 梯度 
对 现在 方向 的 影响 也 越 大 。 带 动量 的 SGD 算法 如 算法 8.2 所 示 。 


算法 8.2 使 用 动量 的 随机 梯度 下 降 ( SGD ) 

Require: 学 习 率 e， 动 量 参数 a 

Require: 初始 参数 69， 初始 速度 v 

while 没有 达到 停止 准则 do 

从 训练 集中 采 包 含 m 个 样本 {zG)，. Cie 的 小 批量 ， 对 应 目标 为 yO 
计算 梯度 估计 : g 去 Ve J, LL(f (zt 9:0), ¥ ”) 
计算 速度 更 新 : v av- eg 
应 用 更 新 : 0 0+v 


end while 














之 前 ， 步 长 只 是 梯度 范 数 乘 以 学 习 率 。 现 在 ， 步 长 取决 于 梯度 序列 的 大 小 和 排 
列 。 当 许多 连续 的 梯度 指向 相同 的 方向 时 ， 步 长 最 大 。 如 果 动 量 算法 总 是 观测 到 梯 
E g， 那 么 它 会 在 方向 -9 上 不 停 加 速 ， 直 到 达到 最 终 速 度 ， 其 中 步 长 大 小 为 

ellgl 

l-a 
AO SREB +. 有 助 于 理解 。 例 如 ，a = 0.9 对 应 着 最 大 速度 10 倍 
于 梯度 下 降 算 法 。 

在 实践 中 ，a 的 一 般 取 值 为 0.5，0.9 和 0.99。 和 学 习 率 一 样 ，a 也 会 随 着 时 间 
不 断 调整 。 一 般 初 始 值 是 一 个 较 小 的 值 ， 随 后 会 慢 慢 变 大 。 随 着 时 间 推 移 调 整 a 没 
有 收缩 e 重要 。 

我 们 可 以 将 动量 算法 视 为 模拟 连续 时 间 下 牛顿 动力 学 下 的 粒子 。 这 种 物理 类 比 
有 助 于 直觉 上 理解 动量 和 梯度 下 降 算法 是 如 何 表现 的 。 

粒子 在 任意 时 间 点 的 位 置 由 9(t) 给 定 。 粒 子 会 受到 净 力 ft)。 该 力 会 导致 粒子 
加 速 : 





(8.17) 


ft) = GTO (8.18) 
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与 其 将 其 视 为 位 置 的 二 阶 微分 方程 ， 我 们 不 如 引入 表示 粒子 在 时 间 t 处 速度 的 变量 
v(t)， 将 牛顿 动力 学 重 写 为 一 阶 微分 方程 : 





v(t) = < alt), (8.19) 
f(t) = © a(t). (8.20) 





由 此 ， 动 量 算法 包括 通过 数值 模拟 求解 微分 方程 。 求 解 微分 方程 的 一 个 简单 数值 方 
法 是 欧 拉 方 法 ， 通 过 在 每 个 梯度 方向 上 小 且 有 限 的 步 来 简单 模拟 该 等 式 定义 的 动力 
学 。 

这 解释 了 动量 更 新 的 基本 形式 ,但 具体 什么 是 力 呢 ? 力 正比 于 代价 函数 的 负 梯 
度 -VeJ(9)。 该 力 推动 粒子 沿 着 代价 函数 表面 下 坡 的 方向 移动 。 梯 度 下 降 算法 基于 
每 个 梯度 简单 地 更 新 一 步 ， 而 使 用 动量 算法 的 牛顿 方案 则 使 用 该 力 改变 粒子 的 速度 。 
我 们 可 以 将 粒子 视 作 在 冰 面 上 滑行 的 冰球 。 每 当 它 沿 着 表面 最 陡 的 部 分 下 降 时 ， 它 
会 累积 继续 在 该 方向 上 滑行 的 速度 ， 直 到 其 开始 向 上 滑动 为 止 。 

另 一 个 力也 是 必要 的 。 如 果 代 价 函 数 的 梯度 是 唯一 的 力 ， 那 么 粒子 可 能 永远 不 
会 停 下 来 。 想 象 二 下 ， 假 设 理想 情况 下 冰 面 没有 摩 氛 ， 一 个 冰球 从 山谷 的 一 端 下 滑 ， 
上 升 到 另 一 端 ， 永 远 来 回 振荡 。 要 解决 这 个 问题 ， 我 们 添加 另 一 个 正比 于 一 v(t) 的 
力 。 在 物理 术语 中 ， 此 力 对 应 于 粘性 阻力 ， 就 像 粒 子 必 须 通过 一 个 抵抗 介质 ， 如 精 
浆 。 这 会 导致 粒子 随 着 时 间 推移 逐渐 失去 能 量 ， 最 终 收 剑 到 局 部 极 小 点 。 

为 什么 要 特别 使 用 一 v(t) 和 粘性 阻力 呢 ? 部 分 原因 是 因为 -v(t) 在 数学 上 的 便 
利 一 一 速度 的 整数 宕 很 容易 处 理 。 然 而 ， 其 他 物理 系统 具有 基于 速度 的 其 他 整数 宕 
的 其 他 类 型 的 阻力 。 例 如 ,颗粒 通过 空气 时 会 受到 正比 于 速度 平方 的 清流 阻力 ， 而 颗 
粒 沿 着 地 面 移动 时 会 受到 恒定 大 小 的 摩擦 力 。 这 些 选择 都 不 合适 。 滑 流 阻力 ,正比 于 
速度 的 平方 ， 在 速度 很 小 时 会 很 弱 。 不 够 强 到 使 粒子 停 下 来 。 非 零 值 初始 速度 的 粒 
子 仅 受 到 注 流 阻力 ， 会 从 初始 位 置 永 远 地 移 动 下 去 ， 和 初始 位 置 的 距离 大 概 正比 于 
OUlog 蚊 。 因 此 我 们 必须 使 用 速度 较 低 宕 次 的 力 。 如 果 宕 次 为 零 ， 相 当 于 干 摩擦, BB 
么 力 太 强 了 。 当 代价 函数 的 梯度 表示 的 力 很 小 但 非 零 时 ， 由 于 摩擦 导致 的 恒 力 会 使 
得 粒子 在 达到 局 部 极 小 点 之 前 就 停 下 来 。 粘 性 阻力 避免 了 这 两 个 问题 一 它 足 够 弱 ， 
可 以 使 梯度 引起 的 运动 直到 达到 最 小 ， 但 又 足够 强 ， 使 得 坡度 不 够 时 可 以 阻止 运动 。 
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8.3.3 Nesterov 动量 


受 Nesterov 加 速 梯 度 算法 (Nesterov, 1983, 2004) 启发 ，Sutskever et al. (2013) 
提出 了 动量 算法 的 一 个 变种 。 这 种 情况 的 更 新 规则 如 下 : 


m 


1 
L( fla: (i) .21 
Vt av— Veo E (fla ;9+av),y ) ) (8.21) 


i=1 


00+, (8.22) 











其 中 参数 a 和 e 发 挥 了 和 标准 动量 方法 中 类 似 的 作用 。Nesterov 动量 和 标准 动量 之 
间 的 区 别 体 现在 梯度 计算 上 。Nesterov 动量 中 , 梯度 计算 在 施加 当前 速度 之 后 。 因 此 ， 
Nesterov 动量 可 以 解释 为 往 标准 动量 方法 中 添加 了 一 个 校正 因子 。 完 整 的 Nesterov 
动量 算法 如 算法 8.3 所 示 。 


算法 8.3 (EH Nesterov 动量 的 随机 梯度 下 降 (SGD) 

Require: 学 习 率 e， 动 量 参数 a 

Require: 初始 参数 69， 初始 速度 v 

while 没有 达到 停止 准则 do 

从 训练 集中 采 包 含 m 个 样本 {a0 0) 的 小 批量 ， 对 应 目标 为 V9 。 
应 用 临时 更 新 : 6 二 0 二 aow 
计算 梯度 (在 临时 点 ): g — 上 Ve Y; (f(z0;0),y)) 
计算 速度 更 新 : v av— €g 
应 用 更 新 : 0 O+4 


end while 














在 凸 批 量 梯度 的 情况 下 ，Nesterov 动量 将 额外 误差 收敛 紊 从 O(1/k) (k 步 后 ) 
改进 到 O(1/k?), 4 Nesterov (1983) 所 示 。 可 惜 ， 在 随机 梯度 的 情况 F, Nesterov 
动量 没有 改进 收敛 率 。 


8.4 ”参数 初始 化 策略 


有 些 优化 算法 本 质 上 是 非 氨 代 的 ， 只 是 求解 一 个 解 点 。 有 些 其 它 优 化 算法 本 质 
上 是 迭代 的 ， 但 是 应 用 于 这 一 类 的 优化 问题 时 ， 能 在 可 接受 的 时 间 内 收敛 到 可 接受 
的 解 ， 并 且 与 初始 值 无 关 。 深 度 学 习 训 练 算法 通常 没有 这 两 种 奢侈 的 性 质 。 深 度 学 
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习 模 型 的 训练 算法 通常 是 迭代 的 ， 因 此 要 求 使 用 者 指定 一 些 开始 迭代 的 初始 点 。 此 
外 ， 训 练 深度 模型 是 一 个 足够 困难 的 问题 ， 以 致 于 大 多 数 算法 都 很 大 程度 地 受到 初 
始 化 选择 的 影响 。 初 始点 能 够 决定 算法 是 否 收敛 ， 有些 初始 点 十 分 不 稳定 ， 使 得 该 
算法 会 遭遇 数值 困难 ， 并 完全 失败 。 当 学 习 收 敛 时 ， 初 始点 可 以 决定 学 习 收 敛 得 多 
块 ， 以 及 是 否 收敛 到 一 个 代价 高 或 低 的 点 。 此 外 ， 差 不 多 代价 的 点 可 以 具有 区 别 极 
大 的 泛 化 误差 ， 初 始点 也 可 以 影响 泛 化 。 

现代 的 初始 化 策略 是 简单 的 、 启 发 式 的 。 设 定 改进 的 初始 化 策略 是 一 项 困难 的 
任务 ， 因 为 神经 网 络 优化 至 今 还 未 被 很 好 地 理解 。 大 多 数 初始 化 策略 基于 在 神经 网 
络 初始 化 时 实现 一 些 很 好 的 性 质 。 然而 , 我 们 并 没有 很 好 地 理解 这 些 性 质 中 的 哪些 会 























观点 看 或 许 是 有 利 的 ， 但 是 从 泛 化 的 观点 看 是 不 利 的 。 我 们 对 于 初始 点 如 何 影响 泛 
化 的 理解 是 相当 原始 的 ， 几 乎 没有 提供 如 何 选择 初始 点 的 任何 指导 。 

也 许 完全 确 知 的 唯一 特性 是 初始 参数 需要 在 不 同 单元 间 “ 破 坏 对 称 性 "。 如 果 具 
有 相同 激活 函数 的 两 个 隐藏 单元 连接 到 相同 的 输入 ， 那 么 这 些 单元 必须 具有 不 同 的 
初始 参数 。 如 果 它 们 具有 相同 的 初始 参数 ， 然 后 应 用 到 确定 性 损失 和 模型 的 确定 性 
学 习 算法 将 一 直 以 相同 的 方式 更 新 这 两 个 单元 。 即 使 模型 或 训练 算法 能 够 使 用 随机 
性 为 不 同 的 单元 计算 不 同 的 更 新 〈 例如 使 用 Dropout 的 训练 )， 通 常 来 说 ， 最 好 还 是 
初始 化 每 个 单元 使 其 和 其 他 单元 计算 不 同 的 函数 。 这 或 许 有 助 于 确保 没有 输入 模式 
丢失 在 前 向 传播 的 零 空间 中 ， 没 有 梯度 模式 丢失 在 反 向 传播 的 零 空间 中 。 每 个 单元 
计算 不 同 函数 的 目标 促使 了 参数 的 随机 初始 化 。 我 们 可 以 明确 地 搜索 一 大 组 彼此 互 
不 相同 的 基 函 数 ， 但 这 经 常会 导致 明显 的 计算 代价 。 例 如 ， 如 果 我 们 有 和 输出 一 样 
多 的 输入 ， 我 们 可 以 使 用 Gram-Schmidt 正 交 化 于 初始 的 权重 矩阵 ， 保 证 每 个 单元 
计算 彼此 非常 不 同 的 函数 。 在 高 维 空间 上 使 用 高 炉 分 布 来 随机 初始 化 ， 计 算 代价 小 
并 且 不 太 可 能 分 配 单元 计算 彼此 相同 的 函数 。 

通常 情况 下 ， 我 们 可 以 为 每 个 单元 的 偏 置 设置 启发 式 挑选 的 常数 ， 仅 随机 初始 
化 权重 。 额 外 的 参数 ( 例如 用 于 编码 预测 条 件 方差 的 参数 ) 通常 和 偏差 一 样 设 置 为 
启发 式 选择 的 常数 。 

我 们 几乎 总 是 初始 化 模型 的 权重 为 高 斯 或 均匀 分 布 中 随机 抽取 的 值 。 高 斯 或 均 
匀 分 布 的 选择 似乎 不 会 有 很 大 的 差别 ， 但 也 没有 被 详尽 地 研究 。 然而， 初始 分 布 的 
大 小 确实 对 优化 过 程 的 结果 和 网 络 泛 化 能 力 都 有 很 大 的 影响 。 

更 大 的 初始 权重 具有 更 强 的 破坏 对 称 性 的 作用 ， 有 助 于 避免 元 余 的 单元 。 它 们 
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也 有 助 于 避免 在 每 层 线性 成 分 的 前 向 或 反 向 传播 中 丢失 信号 一 一 矩阵 中 更 大 的 值 在 
和 抢 阵 乘法 中 有 更 大 的 输出 。 如 果 初 始 权 重 太 大 ， 那 么 会 在 前 向 传播 或 反 向 传播 中 疡 
生 爆 炸 的 值 。 在 循环 网 络 中 ， 很 大 的 权重 也 可 能 导致 混沌 ( chaos ) (对 于 输入 中 很 
小 的 扰动 非常 敏感 ， 导 致 确定 性 前 向 传播 过 程 表 现 随机 )。 在 一 定 程度 上 ， 梯 度 爆 炸 
问题 可 以 通过 梯度 截断 来 缓解 ( 执行 梯度 下 降 步 绝 之 前 设置 梯度 的 闵 值 )。 较 大 的 权 
重 也 会 产生 使 得 激活 函数 饱和 的 值 ， 导 致 人 饱和 单元 的 梯度 完全 丢失 。 这 些 竞 争 因素 
决定 了 权重 的 理想 初始 大 小 。 

关于 如 何 初始 化 网 络 ， 正 则 化 和 优化 有 着 非常 不 同 的 观点 。 优 化 观点 建议 权重 
应 该 足够 大 以 成 功 传播 信息 ， 但 是 正则 化 希望 其 小 一 点 。 诸 如 随机 梯度 下 降 这 类 对 
权重 较 小 的 增 量 更 新 ， 趋 于 停止 在 更 靠近 初始 参数 的 区 域 ( 不管 是 由 于 卡 在 低 梯度 
的 区 域 ， 还 是 由 于 触发 了 基于 过 拟 合 的 提前 终止 准则 ) 的 优化 算法 倾向 于 最 终 参 数 
应 接近 于 初始 参数 。 回 顾 第 7.8 节 ， 在 某 些 模型 上 ， 提 前 终止 的 梯度 下 降 等 价 于 权重 
衰减 。 在 一 般 情 况 下 ， 提 前 终止 的 梯度 下 降 和 权重 衰减 不 同 ， 但 是 提供 了 一 个 宽松 
的 类 比 去 考虑 初始 化 的 影响 。 我 们 可 以 将 初始 化 参数 9 为 Oo 类 比 于 强 置 均值 为 Oo 
的 高 斯 先 验 p(9)。 从 这 个 角度 来 看 ,选择 0o 接近 0 是 有 道理 的 。 这 个 先 验 表 明 , 单 
元 间 彼 此 互 不 交互 比 交 互 更 有 可 能 。 只 有 在 目标 函数 的 似 然 项 表达 出 对 交互 很 强 的 
偏好 时 ， 单 元 才 会 交互 。 另 一 方面 ， 如 果 我 们 初始 化 Oo 为 很 大 的 值 ， 那 么 我 们 的 先 
验 指定 了 哪些 单元 应 互相 交互 ， 以 及 它们 应 如 何 交 互 。 

有 些 启 发 式 方法 可 用 于 选择 权重 的 初始 大 小 。 一 种 初始 化 m 个 输入 和 输出 的 
全 连接 层 的 权重 的 启发 式 方法 是 从 分 布 5 一方 ， Tm) 中 采样 权重 ， 而 Glorot et al. 
(2011a) 建议 使 用 标准 初始 化 (normalized initialization ) 


mtn m+n 


后 一 种 局 发 式 方法 初始 化 所 有 的 层 ， 折 囊 于 使 其 具有 相同 激活 方差 和 使 其 具有 相同 
梯度 方差 之 间 。 这 假设 网 络 是 不 含 非 线 性 的 链 式 矩 阵 乘法 ， 据 此 推导 得 出 。 现 实 的 神 
经 网 络 显然 会 违反 这 个 假设 ， 但 很 多 设计 于 线性 模型 的 策略 在 其 非 线性 对 应 中 的 效 
果 也 不 错 。 

Saxe et al. (2013) 推荐 初始 化 为 随机 正 交 矩阵， 仔细 挑选 负责 每 一 层 非 线性 缩 
放 或 增益 (gain) 因子 g。 他 们 得 到 了 用 于 不 同类 型 的 非 线性 激活 函数 的 特定 缩放 因 
子 。 这 种 初始 化 方案 也 是 启发 于 不 含 非 线性 的 矩 阵 相 乘 序列 的 深度 网 络 。 在 该 模型 
下 ， 这 个 初始 化 方案 保证 了 达到 收敛 所 需 的 训练 迭代 总 数 独立 于 深度 。 
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增加 缩放 因子 9 将 网 络 推 向 网 络 前 向 传播 时 激活 范 数 增加 ， 反 向 传播 时 梯度 范 
数 增 加 的 区 域 。Sussillo (2014) 表明 ， 正 确 设置 缩放 因子 足以 训练 深 达 1000 层 的 网 
络 ， 而 不 需要 使 用 正 交 初始 化 。 这 种 方法 的 一 个 重要 观点 是 ， 在 前 馈 网 络 中 ， 激 活 
和 梯度 会 在 每 一 步 前 向 传播 或 反 向 传播 中 增加 或 缩小 ， 遵 循 随机 游 走 行为 。 这 是 因 
为 前 馈 网 络 在 每 一 层 使 用 了 不 同 的 权重 矩阵 。 如 果 该 随机 游 走 调整 到 保持 范 数 ， 那 
么 前 馈 网 络 能 够 很 大 程度 地 避免 相同 权重 和 矩阵 用 于 每 层 的 梯度 消失 与 爆炸 问题 ， 如 
第 8.2.5 节 所 述 。 

可 惜 ， 这 些 初始 权重 的 最 佳 准则 往往 不 会 带 来 最 佳 效 果 。 这 可 能 有 三 种 不 同 的 
原因 。 首 先 ， 我 们 可 能 使 用 了 错误 的 标准 一 一 它 实 际 上 并 不 利于 保持 整个 网 络 信和 号 
的 范 数 。 其 次 ， 初 始 化 时 强加 的 性 质 可 能 在 学 习 开 始 进行 后 不 能 保持 。 最 后 ， 该 标 
准 可 能 成 功 提 高 了 优化 速度 ， 但 意外 地 增 大 了 泛 化 误差 。 在 实践 中 ,我 们 通常 需要 
将 权重 范围 视 为 超 参 数 ， 其 最 优 值 大 致 接近 ， 但 并 不 完全 等 于 理论 预测 。 

数值 范围 准则 的 一 个 缺点 是 ， 设 置 所 有 的 初始 权重 具有 相同 的 标准 差 ， 例 如 
专 ， 会 使 得 层 很 大 时 每 个 单一 权重 会 变 得 极其 小 。Martens (2010) 提出 了 一 种 被 称 
为 稀 朴 初始 化 (sparse initialization ) 的 蔡 代 方案 ， 每 个 单元 初始 化 为 恰好 有 个 
非 零 权 重 。 这 个 想法 保持 该 单元 输入 的 总 数量 独立 于 输入 数目 m， 而 不 使 单一 权重 
元 素 的 大 小 随 m 缩小 。 稀 玖 初始 化 有 助 于 实现 单元 之 间 在 初始 化 时 更 具 多 样 性 。 但 
fe, 它 也 非常 偏好 于 具有 很 大 高 斯 值 的 权重 。 因 为 梯度 下 降 需 要 很 长 时 间 缩 小 “不 正 
确 ” 的 大 值 ， 这 个 初始 化 方案 可 能 会 导致 某 些 单元 出 问题 ， 例 如 maxout 单元 有 几 个 
过 滤器 ， 互 相 之 间 必 须 仔 细 调 整 。 

计算 资源 允许 的 话 , 将 每 层 权重 的 初始 数值 范围 设 为 超 参数 通常 是 个 好 主意 , 使 
用 第 11.4.2 节 介绍 的 超 参 数 搜索 算法 ， 如 随机 搜索 ,挑选 这 些 数 值 范围 。 是 否 选 择 使 
用 密集 或 稀 玻 初始 化 也 可 以 设 为 一 个 超 参 数 。 作 为 蔡 代 ， 我 们 可 以 手动 搜索 最 优 初 
台 范 围 。 一 个 好 的 挑选 初始 数值 范围 的 经 验 法 则 是 观测 单个 小 批量 数据 上 的 激活 或 
梯度 的 幅度 或 标准 差 。 如 果 权 重 太 小 ， 那 么 当 激活 值 在 小 批量 上 前 向 传播 于 网 络 时 ， 
激活 值 的 幅度 会 缩小 。 通 过 重复 识别 具有 小 得 不 可 接受 的 激活 值 的 第 一 层 ， 并 提高 
其 权重 ， 最 终 有 可 能 得 到 一 个 初始 激活 全 部 合理 的 网 络 。 如 果 学 习 在 这 点 上 仍然 很 
慢 ， 观 测 梯 度 的 幅度 或 标准 差 可 能 也 会 有 所 帮助 。 这 个 过 程 原则 上 是 自动 的 ， 日 通 
常 计 算 量 低 于 基于 验证 集 误 差 的 超 参数 优化 ， 因 为 它 是 基于 初始 模型 在 单 批 数据 上 
的 行为 反馈 ， 而 不 是 在 验证 集 上 训练 模型 的 反馈 。 由 于 这 个 协议 很 长 时 间 都 被 启发 
式 使 用 ， 最 近 Mishkin and Matas (2015) 更 正式 地 研究 了 该 协议 。 

目前 为 止 ， 我 们 关注 在 权重 的 初始 化 上 。 幸 运 的 是 ， 其 他 参数 的 初始 化 通常 更 
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容易 。 


设置 偏 置 的 方法 必须 和 设置 权重 的 方法 协调 。 设 置 偏 置 为 零 通常 在 大 多 数 权重 
初始 化 方案 中 是 可 行 的 。 存 在 一 些 我 们 可 能 设置 偏 置 为 非 零 值 的 情况 : 


























。 如果 偏 置 是 作为 输出 单元 ， 那 么 初始 化 偏 置 以 获取 正确 的 输出 边缘 统计 通常 是 
有 利 的 。 要 做 到 这 一 点 ， 我 们 假设 初始 权重 足够 小 ， 该 单元 的 输出 仅 由 偏 置 决 
定 。 这 说 明 设 置 偏 置 为 应 用 于 训练 集 上 输出 边缘 统计 的 激活 函数 的 道 。 例 如 ， 
如 果 输 出 是 类 上 的 分 布 ， 且 该 分 布 是 高 度 偏 态 分 布 ， 第 i 类 的 边缘 概率 由 某 个 
HE c 的 第 i 个 元 素 给 定 ， 那 么 我 们 可 以 通过 求解 方程 softmax(b) = c 来 设 
置 偏 置 向 量 bg。 这 不 仅 适 用 于 分 类 器 ， 也 适用 于 我 们 将 在 第 三 部 分 遇 到 的 模型 ， 
例如 自 编 码 器 和 玻 尔 兹 曼 机 。 这 些 模 型 拥有 输出 类 似 于 输入 数据 z 的 网 络 层 ， 
非常 有 助 于 初始 化 这 些 层 的 偏 置 以 匹配 z 上 的 边缘 分 布 。 


有 时 ， 我 们 可 能 想 要 选择 偏 置 以 避免 初始 化 引起 太 大 饱和 。 例 如 ， 我 们 可 能 会 
将 ReLU 的 隐藏 单元 设 为 0.1 而 非 0， 以 避免 ReLU 在 初始 化 时 饱和 。 尽 管 这 
种 方法 违背 不 希望 偏 置 具有 很 强 输入 的 权重 初始 化 准则 。 例 如 ， 不 建议 使 用 随 
机 游 走 初始 化 (Sussillo, 2014)。 


有 了 时， 一 个 单元 会 控制 其 他 单元 能 否 参 与 到 等 式 中 。 在 这 种 情况 下 ， 我 们 有 
一 个 单元 输出 ww， 另 一 个 单元 h E [0,1]， 那 么 我 们 可 以 将 h 视 作 门 ， 以 决定 
uh © 1 还 是 uh = 0。 在 这 种 情形 下 ， 我 们 希望 设置 偏 置 h， 使 得 在 初始 化 的 大 
多 数 情 况 下 h 1. BW, u 没有 机 会 学 习 。 例 如 ，Jozefowicz et al. (2015) 提 
议 设置 LSTM 模型 遗忘 门 的 偏 置 为 1， 如 第 10.10 节 所 述 。 
















































































男 一 种 常见 类 型 的 参数 是 方差 或 精确 度 参 数 。 例 如 ， 我 们 用 以 下 模型 进行 带 条 
件 方差 估计 的 线性 回归 





ply | z) =N (y | w' e+ b, 1/8), (8.24) 


其 中 8 是 精确 度 参 数 。 通 常 我 们 能 安全 地 初始 化 方差 或 精确 度 参 数 为 1。 男 一 种 方 
法 假设 初始 权重 足够 接近 零 ， 设 置 偏 置 可 以 忽略 权重 的 影响 ,然后 设 定 偏 置 以 产生 
输出 的 正确 边缘 均值 ， 并 将 方差 参数 设置 为 训练 集 输出 的 边缘 方差 。 
ee a Ug atl 
化 模型 参数 。 在 本 书 第 三 部 分 讨论 的 一 个 常用 策略 是 使 用 相同 的 输入 数据 集 ， 用 无 
和 
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练 。 即 使 是 在 一 个 不 相关 的 任务 上 运行 监督 训练 ， 有 时 也 能 得 到 一 个 比 随机 初始 化 
具有 更 快 收敛 率 的 初始 值 。 这 些 初始 化 策略 有 些 能 够 得 到 更 快 的 收敛 率 和 更 好 的 泛 
化 误差 ， 因 为 它们 编码 了 模型 初始 参数 的 分 布 信息 。 其 他 策略 显然 效果 不 错 的 原因 
主要 在 于 它们 设置 参数 为 正确 的 数值 范围 ， 或 是 设置 不 同 单元 计算 互相 不 同 的 函数 。 


8.5 ” 自 适应 学 习 率 算法 


神经 网 络 研究 员 早 就 意识 到 学 习 率 肯定 是 难以 设置 的 超 参数 之 一 ， 因 为 它 对 模 
型 的 性 能 有 显著 的 影响 。 正 如 我 们 在 第 4.3 节 和 第 8.2 节 中 所 探讨 的 ， 损 失 通 常 高度 
敏感 于 参数 空间 中 的 某 些 方向 ， 而 不 敏感 于 其 他 。 动 量 算 法 可 以 在 一 定 程度 绥 解 这 
些 问题 ,但 这 样 做 的 代价 是 引入 了 男 一 个 超 参数 。 在 这 种 情况 下 ， 自 然 会 问 有 没有 
其 他 方法 。 如 果 我 们 相信 方向 敏感 度 在 某 种 程度 是 轴 对 齐 的 ， 那 么 每 个 参数 设置 不 
同 的 学 习 率 ， 在 整个 学 习 过 程 中 自动 适应 这 些 学 习 率 是 有 道理 的 。 

Delta-bar-delta 算法 (Jacobs, 1988) 是 一 个 早期 的 在 训练 时 适应 模型 参数 各 
自学 习 率 的 启发 式 方法 。 该 方法 基于 一 个 很 简单 的 想法 ， 如 果 损 失 对 于 某 个 给 定 模 
型 参数 的 偏 导 保持 相同 的 符号 ， 那 么 学 习 率 应 该 增加 。 如 果 对 于 该 参数 的 偏 导 变化 
了 符号 ， 那 么 学 习 率 应 减 小 。 当 然 ， 这 种 方法 只 能 应 用 于 全 批量 优化 中 。 

最 近 ， 提 出 了 一 些 增 量 (或 者 基于 小 批量 ) 的 算法 来 自 适 应 模型 参数 的 学 习 率 。 
这 节 将 简要 回顾 其 中 一 些 算法 。 















































8.5.1 AdaGrad 


AdaGrad (AdaGrad ) 算法 , 如 算法 8.4 所 示 , 独立 地 适应 所 有 模型 参数 的 学 习 
率 ， 缩 放 每 个 参数 反比 于 其 所 有 梯度 历史 平方 值 总 和 的 平方 根 (Duchi et al., 2011)。 
具有 损失 最 大 偏 导 的 参数 相应 地 有 一 个 快速 下 降 的 学 习 率 ， 而 具有 小 偏 导 的 参数 
在 学 习 率 上 有 相对 较 小 的 下 降 。 净 效果 是 在 参数 空间 中 更 为 平缓 的 倾斜 方向 会 取得 
更 大 的 进步 。 

在 凸 优 化 背景 中 ，AdaGrad 算法 具有 一 些 令 人 满意 的 理论 性 质 。 然 而 ， 经 验 上 
已 经 发 现 ， 对 于 训练 深度 神经 网 络 模型 而 言 ， 从 训练 开始 时 积累 梯度 平方 会 导致 有 
效 学 习 率 过 早 和 过 量 的 减 小 。AdaGrad 在 某 些 深度 学 习 模 型 上 效果 不 错 ， 但 不 是 全 
部 。 
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算法 8.4 AdaGrad 算法 
Require: 全 局 学 习 率 e 
Require: 初始 参数 0 
Require: 小 常数 5， 为 了 数值 稳定 大 约 设 为 1077 
初始 化 梯度 累积 变量 r= 0 
while 没有 达到 停止 准则 do 
从 训练 集中 采 包 含 m 个 样本 {20D),... 009) 的 小 批量 ， 对 应 目标 为 W2 。 
计算 梯度 : ge VoD, L(f(2; 6), yO) 
累积 平方 梯度 : ror+gOg 
计算 更 新 : AO 一 天 9 ( 逐 元 素 地 应 用 除 和 求 平 方 根 ) 
应 用 更 新 : 0 二 0 十 Ab 


end while 











8.5.2 RMSProp 


RMSProp 算法 (Hinton, 2012) 修改 AdaGrad 以 在 非 凸 设 定 下 效果 更 好 ， 改 
变 梯度 积累 为 指数 加 权 的 移动 平均 。AdaGrad 由 在 应 用 于 凸 问题 时 快速 收 僵 。 当 应 
用 于 非 凸 函数 训练 神经 网 络 时 ， 学 习 轨 迹 可 能 穿 过 了 很 多 不 同 的 结构 ， 最 终 到 达 一 
个 局 部 是 凸 硫 的 区 域 。AdaGrad 根据 平方 梯度 的 整个 历史 收缩 学 习 率 ， 可 能 使 得 学 
习 率 在 达到 这 样 的 凸 结构 前 就 变 得 太 小 了 。RMSProp 使 用 指数 衰减 平均 以 丢弃 遥远 
过 去 的 历史 ,使 其 能 够 在 找到 凸 碗 状 结构 后 快速 收 僵 ， 它 就 像 一 个 初始 化 于 该 碗 状 
结构 的 AdaGrad 算法 实例 。 

RMSProp 的 标准 形式 如 算法 8.5 所 示 ， 结 合 Nesterov 动量 的 形式 如 算法 8.6 所 
示 。 相 比 于 AdaGrad， 使 用 移动 平均 引入 了 一 个 新 的 超 参数 p， 用 来 控制 移动 平均 的 
长 度 范围 。 

经 验 上 ，RMSProp 已 被 证 明 是 一 种 有 效 量 实用 的 深度 神经 网 络 优化 算法 。 目 前 
它 是 深度 学 习 从 业者 经 常 采 用 的 优化 方法 之 一 。 

















8.5.3 Adam 


Adam (Kingma and Ba, 2014) 是 男 一 种 学 习 率 自 适应 的 优化 算法 ,如 算法 8.7 所 
示 。“Adam” 这 个 名 字 派 生 自 短语 “adaptive moments”。 早 期 算法 背景 下 ， 它 也 许 
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算法 8.5 RMSProp 算法 
Require: 全 局 学 习 率 ec， 误 减速 率 p 
Require: 初始 参数 0 
Require: 小 常数 56， 通常 设 为 10-6( 用 于 被 小 数 除 时 的 数值 稳定 ) 
初始 化 累积 变量 r= 0 
while 没有 达到 停止 准则 do 
从 训练 集中 采 包 含 m 个 样本 {2,202,209} 的 小 批量 ， 对 应 目标 为 yO 
计算 梯度 : g Vey), L(f(a; 6), y) 
累积 平方 梯度 : r—pr+(1—p)gOg 
计算 参数 更 新 : Ab = - -OOg (Ge BGR) 
应 用 更 新 : 6 二 8+ Ad 


end while 














最 好 被 看 作 结 合 RMSProp 和 具有 一 些 重 要 区 别 的 动量 的 变种 。 首 先 ， 在 Adam 中 ， 
动量 直接 并 入 了 梯度 一 阶 和 矩 ( 指数 加 权 ) 的 估计 。 将 动量 加 入 RMSProp 最 直观 的 
方法 是 将 动量 应 用 于 缩放 后 的 梯度 。 结 合 缩放 的 动量 使 用 没有 明确 的 理论 动机 。 其 
次 ，Adam 包括 偏 置 修正 , 修正 从 原点 初始 化 的 一 阶 矩 ( 动量 项 ) 和 ( 非 中心 的 ) 二 
阶 矩 的 估计 (算法 8.7 )。RMSProp 也 采用 了 GEP- GAI) 二 阶 矩 舍 计 ， 然 而 缺失 了 
修正 因子 。 因 此 , 不 像 Adam, RMSProp 二 阶 矩 估计 可 能 在 训练 初期 有 很 高 的 偏 置 。 
Adam 通常 被 认为 对 超 参数 的 选择 相当 鲁 棒 ， 尽 管 学习 率 有 时 需要 从 建议 的 默认 修 
改 。 














8.5.4 选择 正确 的 优化 算法 


在 本 节 中 ， 我 们 讨论 了 一 系列 算法 ， 通 过 自 适 应 每 个 模型 参数 的 学 习 率 以 解决 
优化 深度 模型 中 的 难题 。 此 时 ， 一 个 自然 的 问题 是 : 该 选择 哪 种 算法 呢 ? 

遗憾 的 是 ， 目 前 在 这 一 点 上 没有 达成 共识 。Schaul et al. (2014) 展示 了 许多 优 
化 算法 在 大 量 学 习 任务 上 极 具 价 值 的 比较 。 虽 然 结 果 表 明 ， 具 有 自 适 应 学 习 率 (以 
RMSProp 和 AdaDelta 为 代表 ) 的 算法 族 表现 得 相当 和 鲁 棒 ， 不 分 伯仲 ， 但 没有 哪个 
算法 能 脱颖而出 。 

目前 ， 最 流行 并 且 使 用 很 高 的 优化 算法 包括 SGD、 具 动量 的 SGD, RMSProp, 
具 动 量 的 RMSProp, AdaDelta 和 Adam。 此 时 ， 选 择 哪 一 个 算法 似乎 主要 取决 于 
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算法 8.6 使 用 Nesterov 动量 的 RMSProp 算法 


263 





Require: 全 局 学 习 率 e， 误 减速 率 p， 动 量 系数 a 
Require: 初始 参数 0， 初始 参数 v 
初始 化 累积 变量 r= 0 
while 没有 达到 停止 准则 do 
从 训练 集中 采 包 含 m 个 样本 {2.0.2} 的 小 批量 ， 对 应 目标 为 yË 
计算 临时 更 新 : 6 8+ av 
a ee to ); 0), y) 
积 梯度 : re pr 十 (1 一 pP)IQg 
5 J: ve ay 一 og (+, 逐 元 素 应 用 ) 
应 用 更 新 : 9 和 0 二 


end while 














使 用 者 对 算法 的 熟悉 程度 ( 以 便 调 节 超 参数 )。 
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算法 8.7 Adam 算法 
Require: 步 长 e (建议 默认 为 : 0.001 ) 
Require: 矩 估计 的 指数 衰减 速率 ，p: 和 ps 在 区 间 [0,1) 内 。 (建议 默认 为 : 分 别 
为 0.9 和 0.999 ) 
Require: 用 于 数值 稳定 的 小 常数 6 〈 建 议 默认 为 : 10-s ) 
Require: 初始 参数 0 
初始 化 一 阶 和 二 阶 矩 变量 s= 0, r=0 
初始 化 时 间 步 上 = 0 
while 没有 达到 停止 准则 do 
从 训练 集中 采 包 含 m 个 样本 {2.0.0} 的 小 批量 ， 对 应 目标 为 yË 
计算 梯度 : ge AVe dD, L(f(2; 0), yi )) 
tct+1 
TESTA mEt: s pis+(1—pi)g 
ERAM: r port (1—pe)g@g 
(E1E— MERE: $e 5 Žr 
(EES BME WE: ti t 
计算 更 新 : A0 = = ( 逐 元 素 应 用 操作 ) 
应 用 更 新 : 0 - 0+ AO 


end while 



























































8.6 二 阶 近似 方法 


在 本 节 中 ， 我 们 会 讨论 训练 深度 神经 网 络 的 二 阶 方法 。 参 考 LeCun and Cortes 
(1998) 了 解 该 问题 的 早期 处 理 方 法 。 为 表述 简单 起 见 ， 我 们 只 考察 目标 函数 为 经 验 
风险 : 














; 1 所 
J(0) = Ey pos L(f (x ee f(a; 0), y). (8.25) 


m 


然而 ， 我 们 在 这 里 讨论 的 方法 很 容易 扩展 到 更 一 般 的 目标 函数 ， 例 如， 第 七 草 讨论 
的 包括 参数 正则 项 的 函数 。 
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8.6.1 “牛顿 法 


在 第 4.3 节 ， 我 们 介绍 了 二 阶梯 度 方法 。 与 一 阶 方法 相 比 ， 二 阶 方法 使 用 二 阶 导 
数 改进 了 优化 。 最 广泛 使 用 的 二 阶 方法 是 牛顿 法 。 我 们 现在 更 详细 地 描述 牛顿 法 , 重 
点 在 其 应 用 于 神经 网 络 的 训练 。 

牛顿 法 是 基于 二 阶 泰勒 级 数 展开 在 某 点 Oy 附近 来 近似 .J(6) 的 优化 方法 ， 其 忽 
略 了 高 阶 导 数 : 








J(O) ~ J(00) + (0— 00) VoJ(00) + 5(0 ~ 6%) H(O ~ 60), (820) 





其 中 H Æ J 相对 于 9 的 Hessian 和 矩阵 在 0o 处 的 估计 。 如 果 我 们 再 求解 这 个 函数 
的 临界 点 ， 我 们 将 得 到 牛顿 参数 更 新 规则 : 





0*=00— H!VeJ(00). (8.27) 


因此 ， 对 于 局 部 的 二 次 函数 (RATE H), H H :重新 调整 梯度 ， 牛 顿 法 会 直 
接 跳 到 极 小 值 。 如 果 目 标 函 数 是 凸 的 但 非 二 次 的 (有 高 阶 项 )， 该 更 新 将 是 迭代 的 ， 
得 到 和 牛顿 法 相关 的 算法 ， 如 算法 8.8 所 示 。 

对 于 非 二 次 的 表面 ， 只 要 Hessian 甜 阵 保持 正定 ,牛顿 法 能 够 迭代 地 应 用 。 这 意 
味 着 一 个 两 步 迭代 过 程 。 首 先 ， 更 新 或 计算 Hessian 逆 (通过 更 新 二 阶 近似 )。 其 次 ， 
根据 式 (8.27) 更 新 参数 。 

在 第 8.2.3 节 ， 我 们 讨论 了 牛顿 法 只 适用 于 Hessian 矩阵 是 正定 的 情况 。 在 深度 
学 习 中 ， 目 标 函 数 的 表面 通常 非 凸 (有 很 多 特征 )， 如 鞍点 。 因 此 使 用 牛顿 法 是 有 问 
题 的 。 如果 Hessian 和 矩阵 的 特征 值 并 不 都 是 正 的 ， 例如， 靠近 鞍点 处 ， 牛 顿 法 实际 上 
会 导致 更 新 朝 错误 的 方向 移动 。 这 种 情况 可 以 通过 正则 化 Hessian 矩阵 来 避免 。 常 用 
的 正则 化 策略 包括 在 Hessian 矩阵 对 角 线 上 增加 和 常数 wc。 正 则 化 更 新 变 为 




















0*=00— [H(f(80)) + al] "Vef(00). (8.28) 


这 个 正则 化 策略 用 于 牛顿 法 的 近似 ， 例 如 Levenberg-Marquardt 算法 (Levenberg, 
1944; Marquardt, 1963)， 只 要 Hessian 矩阵 的 负 特 征 值 仍然 相对 接近 零 ， 效 果 就 会 
很 好 。 在 曲率 方向 更 极端 的 情况 下 ，a 的 值 必须 足够 大 ， 以 抵消 负 特征 值 。 然 而 ， 如 
果 a 持续 增加 ，Hessian 矩阵 会 变 得 由 对 角 算 阵 OT 主导， 通过 牛顿 法 所 选择 的 方向 
会 收敛 到 普通 梯度 除 以 a。 当 很 强 的 负 曲 率 存在 时 ,a 可 能 需要 特别 大 ， 以 致 于 牛顿 
法 比 选择 合适 学 习 率 的 梯度 下 降 的 步 长 更 小 。 
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算法 8.8 目标 为 J(0) = +Y L(f(@; 6), yO) 的 牛顿 法 
Require: 初始 参数 0o 
Require: 包含 m 个 样本 的 训练 集 
while 没有 达到 停止 准则 do 
计算 梯度 : g +Vo DL(f(z;0), y) 
计算 Hessian 4E: H+ 4V3 D, L(f (a; 0), y®) 
计算 Hessian wi: Ho! 
计算 更 新 : Ae=—H'g 
应 用 更 新 : @ =O+ Ad 


end while 











除了 目标 函数 的 某 些 特征 带 来 的 挑战 , 如 鞍点 , 牛顿 法 用 于 训练 大 型 神经 网 络 还 
受 限 于 其 显著 的 计算 负担 。Hessian 矩阵 中 元 素数 目 是 参数 数量 的 平方 ， 因 此 ， 如 果 
参数 数目 为 & (甚至 是 在 非常 小 的 神经 网 络 中 上 也 可 能 是 百 万 级 别 )， 牛 顿 法 需要 计 
Bk x k 甜 阵 的 逆 ， 计算 复杂 度 为 O( 妇 )。 另 外 ， 由 于 参数 将 每 次 更 新 都 会 改变 ， 每 
次 训练 迭代 都 需要 计算 Hessian 和 矩阵 的 逆 。 其 结果 是 ， 只 有 参数 很 少 的 网 络 才 能 在 实 
际 中 用 牛顿 法 训练 。 在 本 节 的 剩余 部 分 ， 我们 将 讨论 一 些 试图 保持 牛顿 法 优点 ， 同 
时 避免 计算 障碍 的 替代 算法 。 





8.6.2 HHE 


Tee hs Ee P KR RR MEN HHEA LE (conjugate directions ) 以 有 效 避 
Ha Hessian 矩阵 求 逆 计 算 的 方法 。 这 种 方法 的 灵感 来 自 于 对 最 速 下 降 方 法 弱点 的 仔细 
研究 〈 详 细 信息 请 查看 第 4.3 节 )， 其 中 线性 搜索 迭代 地 用 于 与 梯度 相关 的 方向 上 。 
图 8.6 说 明了 该 方法 在 二 次 碗 型 目标 中 如 何 表现 的 ， 是 一 个 相当 低 效 的 来 回 往复 ， 锯 
齿 形 模 式 。 这 是 因为 每 一 个 由 梯度 给 定 的 线性 搜索 方向 ， 都 保证 正 交 于 上 一 个 线性 
搜索 方向 。 

假设 上 一 个 搜索 方向 是 &_i。 在 极 小 值 处 ， 线 性 搜索 终止 ,方向 di 处 的 方向 
PEA: VeJ(0).d_1 = 0。 因为 该 点 的 梯度 定义 了 当前 的 搜索 方向 , di = Vo (0) 
将 不 会 贡献 于 方向 d;_1。 因此 方向 di 正 交 于 di;_1。 RE FMEA VARIG, 方向 di 
和 di 之 间 的 关系 如 图 8.6 所 示 。 如 图 展示 的 ， 下 降 正 交 方 向 的 选择 不 会 保持 前 一 搜 
索 方向 上 的 最 小 值 。 这 产生 了 锯齿 形 的 过 程 。 在 当前 梯度 方向 下 降 到 极 小 值 ， 我 们 
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图 8.6: 将 最 速 下 降 法 应 用 于 二 次 代价 表面 。 在 每 个 步 又， 最 速 下 降 法 沿 着 由 初始 点 处 的 梯度 定义 
的 线 跳 到 最 低 代 价 的 点 。 这 解决 了 图 4.6 中 使 用 固定 学 习 率 所 遇 到 的 一 些 问题 ,但 即使 使 用 最 佳 步 
K, 算法 仍然 朝 最 优 方向 曲折 前 进 。 根 据 定义 ， 在 沿 着 给 定 方向 的 目标 最 小 值 处 ,最 终点 处 的 梯度 
与 该 方向 正 交 。 

































































必须 重新 最 小 化 之 前 梯度 方向 上 的 目标 。 因 此 , 通过 遵循 每 次 线性 搜索 结束 时 的 梯 
度 ， 我 们 在 某 种 程度 上 撤销 了 在 之 前 线性 搜索 的 方向 上 取得 的 进展 。 共 恩 梯 度 试 图 
解决 这 个 问题 。 

在 共 斩 梯 度 法 中 ， 我 们 寻求 一 个 和 先前 线性 搜索 方向 EAE (conjugate) 的 搜索 
方向 ， 即 它 不 会 撤销 该 方向 上 的 进展 。 在 训练 欠 代 t 时 ， 下 一 步 的 搜索 方向 di 的 形 
式 如 下 : 





d, = VeJ(0) + Bidi, (8.29) 
其 中 ， 系 数 B, 的 大 小 控制 我 们 应 沿 方 向 di_1 加 回 多 少 到 当前 搜索 方向 上 。 


如 果 di Hdi = 0， 其 中 及 是 Hessian 和 矩阵 ， 则 两 个 方向 d; 和 di_1 被 称 为 共 
HEJ o 

TENSES FETT IEE RS) H EEEE 6,。 这 将 无 法 满足 我 们 
的 开发 目标 : 寻找 在 大 问题 比 牛 顿 法 计算 更 加 可 行 的 方法 。 我 们 能 否 不 进行 这 些 计 
算 而 得 到 共 斩 方 向 ”幸运 的 是 这 个 问题 的 答案 是 肯定 的 。 


两 种 用 于 计算 By 的 流行 方法 是 : 








1. Fletcher-Reeves: 


VeJ(0:)' VeJ(0:) 
VoJ(0:1)' VoJ (0:1) 





Br (8.30) 
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2. Polak-Ribiére: 
(VeJ(0)— VoJ(@-1))'VoJ (A) 


Be = Voj(0 1) VoJ (0:1) 





(8.31) 





MF UH AT, HIA Ta] RB BE a TT AD ANE, ALE, RER — 
方向 上 仍然 是 极 小 值 。 其 结果 是 ， 在 kS, SCUBA A Be k KR 
性 搜索 就 能 达到 极 小 值 。 共 斩 梯 度 算法 如 算法 8.9 所 示 。 


算法 8.9 HERREN IE 
Require: 初始 参数 0o 
Require: 包含 m 个 样本 的 训练 集 
初始 化 po =0 
初始 化 go = 0 
初始 化 t= 1 
while 没有 达到 停止 准则 do 
初始 化 梯度 g, = 0 
计算 梯度 : g, mv 9 Di LF (2; 0), y) 
计算 Bi = U8) © (Polak-Ribidre) 


gi 19t— 


(GER PEHE Hp JE : WETER BNE, 例如 t 是 常数 大 的 倍数 时 , A k = 5) 














计算 搜索 方向 : Pi = —g + Pipt-1 

执行 线 搜索 寻找 : & = argmin. +O)”, L( f(x; 0i + epi), y) 

( 对 于 真正 二 次 的 代价 函数 ， 存 在 e* 的 解析 解 ， 而 无 需 显 式 地 搜索 ) 
应 用 更 新 : Oi = 0 +p; 

tt+l 


end while 








非 线 性 共 斩 梯度 : 目前， 我们 已 经 讨论 了 用 于 二 次 目标 函数 的 共 斩 梯度 法 。 当 然 ， 
本 章 我 们 主要 关注 于 探索 训练 神经 网 络 和 其 他 相关 深度 学 习 模 型 的 优化 方法 ， 其 对 
应 的 目标 函数 比 二 次 函数 复杂 得 多 。 或 许 令 人 惊讶 ， 共 f 梯 度 法 在 这 种 情况 下 仍然 
是 适用 的 ， 尽 管 需 要 作 一 些 修改 。 没 有 目标 是 二 次 的 保证 ， 共 思 方 向 也 不 再 保证 在 
以 前 方向 上 的 目标 仍 是 极 小 值 。 其 结果 是 ， 非 线性 共 斩 梯 度 算法 会 包括 一 些 偶 尔 的 
重 设 ， 共 斩 梯 度 法 沿 未 修改 的 梯度 重启 线性 搜索 。 
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实践 者 报告 在 实践 中 使 用 非 线性 共 斩 梯 度 算 法 训练 神经 网 络 是 合理 的 ， 尽 管 在 
开始 非 线 性 共 轿 梯度 前 使 用 随机 梯度 下 降 迭 代 吞 干 步 来 初始 化 效果 更 好 。 男 外 ， 尽 
E ( 非 线 性 ) 共 斩 梯 度 算 法 传统 上 作为 批 方法 ， 小 批量 版 本 已 经 成 功用 于 训练 神经 
网 络 (Le Roux et o/.,，2011)。 针 对 神经 网 路 的 共 箔 梯度 应 用 早已 被 提出 ， 例 如 缩放 
WILE RARER YE (Moller, 1993). 





8.6.3 BFGS 


Broyden-Fletcher-Goldfarb-Shanno (BFGS ) 算法 具有 牛顿 法 的 一 些 优 
点 , 但 没有 牛顿 法 的 计算 负担 。 在 这 方面 ， BFGS 和 CG 很 像 。 然 而 ，BFGS 使 用 了 
一 个 更 直接 的 方法 近似 牛顿 更 新 。 回 顾 牛 顿 更 新 由 下 式 给 出 





0* = 0) — H Vo J (Oo), (8.32) 





其 中 , Hw J 相对 于 9 FW Hessian ERETTE Oo 处 的 估计 。 运 用 牛顿 法 的 主要 计算 难 
点 在 于 计算 Hessian 道 五 1。 拟 牛 顿 法 所 采用 的 方法 (BFGS 是 其 中 最 突出 的 ) 是 使 
用 和 矩阵 M, 近似 逆 ， 和 迭代 地 低 秩 更 新 精度 以 更 好 地 近似 H 

BFGS 近似 的 说 明和 推导 出 现在 很 多 关于 优化 的 教科 书 中 ， 包 括 Luenberger 
(1984) . 

“4 Hessian HA M, 更 新 时 ， 下 降 方向 pi 为 pi = Mig,。 该 方向 上 的 线性 搜 
索 用 于 决定 该 方向 上 的 步 长 ee 。 参 数 的 最 后 更 新 为 : 








Qir1 一 0: + €* pt- (8.33) 





MISE RIAA, BFGS 算法 迭代 一 系列 线性 搜索 ， 其 方向 含 二 阶 信息 。 然 而 
和 共 斩 梯 度 不 同 的 是 ， 该 方法 的 成 功 并 不 严重 依赖 于 线性 搜索 寻找 该 方向 上 和 真正 
极 小 值 很 近 的 一 点 。 因 此 ， 相 比 于 共 箔 梯度，BFGS 的 优点 是 其 花费 较 少 的 时 间 改 
进 每 个 线性 搜索 。 在 另 一 方面 ，BFGS 算法 必须 存储 Hessian wish M， 需 要 O(n?) 
的 存储 空间 ， 使 BFGS 不 适用 于 大 多 数 具 有 百 万 级 参数 的 现代 深度 学 习 模 型 。 


存储 受 限 的 BFGS (或 L-BFGS ) 通过 避免 存储 完整 的 Hessian 逆 近似 M 
BFGS 算 法 的 存储 代价 可 以 显著 降低 。L-BFGS 算 法 使 用 和 BFGS 算 法 相同 的 方法 计 
算 M 的 近似 ， 但 起 始 假设 是 MEO 是 单位 矩阵 ， 而 不 是 一 步 一 步 都 要 存储 近似 。 
如 果 使 用 精确 的 线性 搜索 ，L-BFGS EXAT HAETI Rm, WEF 
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梯度 法 ， 即 使 只 是 近似 线性 搜索 的 极 小 值 ， 该 过 程 的 效果 仍然 不 错 。 这 里 描述 的 无 
存储 的 L-BFGS 方 法 可 以 拓展 为 包含 Hessian 和 矩阵 更 多 的 信息 ， 每 步 存储 一 些 用 于 更 
新 M 的 向 量 ， 且 每 步 的 存储 代价 是 O(n). 


8.7 ”优化 策略 和 元 算法 


许多 优化 技术 并 非 真正 的 算法 ， 而 是 一 般 化 的 模板 ， 可 以 特定 地 产生 算法 ,或 
是 并 入 到 很 多 不 同 的 算法 中 。 


8.7.1 ” 批 标准 化 


批 标准 化 (Ioffe and Szegedy, 2015) 是 优化 深度 神经 网 络 中 最 激动 人 心 的 最 新 创 
新 之 一 。 实 际 上 它 并 不 是 一 个 优化 算法 ， 而 是 一 个 自 适应 的 重 参数 化 的 方法 ， 试 图 
解决 训练 非常 深 的 模型 的 困难 。 

非常 次 的 模型 会 涉及 多 个 函数 或 层 组 合 。 在 其 他 层 不 改变 的 假设 下 ， 梯 度 用 于 
如 何 更 新 每 一 个 参数 。 在 实践 中 , 我 们 同时 更 新 所 有 层 。 当 我 们 进行 更 新 时 ， 可 能 会 
发 生 一 些 意 想不到 的 结果 ,这 是 因为 许多 组 合 在 一 起 的 函数 同时 改变 时 ， 计 算 更 新 
的 假设 是 其 他 函数 保持 不 变 。 举 一 个 简单 的 例子 ,假设 我 们 有 一 个 深度 神经 网 络 ， 
一 层 只 有 一 个 单元 ， 并 且 在 每 个 隐藏 层 不 使 用 激活 函数 : G = rwwws... wo IEA, 
wi 表示 用 于 层 i 的 权重 。 层 i 的 输出 是 hy = hiwi 输出 少 是 输入 z 的 线性 函数 ， 
但 是 权重 wi 的 非 线性 函数 。 假 设 我 们 的 代价 函数 上 的 梯度 为 1， 所 以 我 们 希望 稍 
稍 降低 $$。 然 后 反问 传播 算法 可 以 计算 梯度 g = Vwj。 想 想 我 们 在 更 新 w w- eg 
时 会 发 生 什 么 。 近 似 乡 的 一 阶 泰勒 级 数 会 预测 5 的 值 下 降 eg' g。 如 果 我 们 希望 下 
降 0.1， 那 么 梯度 中 的 一 阶 信息 表明 我 们 应 设置 学 习 率 e 为 站。 然而 ， 实 际 的 更 新 
将 包括 二 阶 ， 三 阶 ， 直 到 7 阶 的 影响 。5 的 更 新 值 为 




















Z(W1 — €g1)(we — €g2)... (wi — eg1), (8.34) 


这 个 更 新 中 所 产生 的 一 个 二 阶 项 示例 是 qi go TT;_ wi 。 如 果 TT;_3 wi 很 小 , 那么 该 
项 可 以 忽略 不 计 。 而 如 果 层 3 到 层 ! 的 权重 都 比 1 大 时 ， 该 项 可 能 会 指数 级 大 。 这 
使 得 我 们 很 难 选择 一 个 合适 的 学 习 率 ， 因 为 某 一 层 中 参数 更 新 的 效果 很 大 程度 上 取 
决 于 其 他 所 有 层 。 二 阶 优化 算法 通过 考虑 二 阶 相互 影响 来 解决 这 个 问题 ， 但 我 们 可 
以 看 到 , 在 非常 深 的 网 络 中 ,更 高 阶 的 相互 影响 会 很 显著 。 即 使 是 二 阶 优化 算法 , 计 
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算 代 价 也 很 高 ,， 并且 通常 需要 大 量 近似 ， 以 免 真 正 计算 所 有 的 重要 二 阶 相互 作用 。 
此 对 于 n> 2 的 情况 ， 建立 ” 阶 优化 算法 似乎 是 无 望 的 。 那 么 我 们 可 以 做 些 什么 呢 ? 

批 标准 化 提出 了 一 种 几乎 可 以 重 参数 化 所 有 深度 网 络 的 优雅 方法 。 重 参数 化 显 
著 减 少 了 多 层 之 间 协 调 更 新 的 问题 。 批 标准 化 可 应 用 于 网 络 的 任何 输入 层 或 隐藏 层 。 
设 互 是 需要 标准 化 的 某 层 的 小 批量 激活 函数 ， 排 布 为 设计 矩阵， 每 个 样本 的 激活 出 
现在 矩阵 的 每 一 行 中 。 为 了 标准 化 互 ， 我 们 将 其 蔡 换 为 
H-p 

o Fi 

其 中 p 是 包含 每 个 单元 均值 的 向 量 ，o 是 包含 每 个 单元 标准 差 的 向 量 。 此 处 的 算术 
是 基于 广播 向 量 jw 和 向 量 o 应 用 于 和 矩阵 H 的 每 一 行 。 在 每 一 行内 ， 运 算是 逐 元 素 
的 ， 因 此 五 ;; 标准 化 为 减 去 u 再 除 以 cj。 网 络 的 其 余部 分 操作 H 的 方式 和 原 网 
络 操 作 互 的 方式 一 样 。 

在 训练 阶段 ， 








H = (8.35) 


1 
= 一 H;. : 
u me = (8.36) 


和 





e Sya- uff, (8.37) 





其 中 6 是 个 很 小 的 正 值 ， 比 如 1078, ARRIE V 的 梯度 在 z = 0 处 未 定义 
的 问题 。 至 关 重 要 的 是 , 我 们 反 向 传播 这 些 操作 , 来 计算 均值 和 标准 差 ,， 并 应 用 它们 
于 标准 化 五 。 这 意味 着 ， 梯 度 不 会 再 简单 地 增加 h; 的 标准 差 或 均值 ; 标准 化 操作 会 
除 掉 这 一 操作 的 影响 ， 归 零 其 在 梯度 中 的 元 素 。 这 是 批 标准 化 方法 的 一 个 重大 创新 。 
以 前 的 方法 添加 代价 函数 的 惩罚 ， 以 喜 励 单元 标准 化 激活 统计 量 ， 或 是 在 每 个 梯度 
下 降 步骤 之 后 重新 标准 化 单元 统计 量 。 前 者 通常 会 导致 不 完全 的 标准 化 ， 而 后 者 通 
常会 显著 地 消耗 时 间 ， 因 为 学 习 算法 会 反复 改变 均值 和 方差 而 标准 化 步 又 会 反复 抵 
消 这 种 变化 。 批 标准 化 重 参 数 化 模型 ， 以 使 一 些 单元 总 是 被 定义 标准 化 ， 巧 妙 地 回 
避 了 这 两 个 问题 。 

在 测试 阶段 ，j 和 e 可 以 被 蔡 换 为 训练 阶段 收集 的 运行 均值 。 这 使 得 模型 可 以 
对 单一 样本 评估 ， 而 无 需 使 用 定义 于 整个 小 批量 的 u 和 c。 

回顾 例子 = zwiwwz...w:， 我 们 看 到 ， 我 们 可 以 通过 标准 化 hi1 很 大 程度 地 
解决 了 学 习 这 个 模型 的 问题 。 假 设 x 采样 自 一 个 单位 高 斯 。 那 么 h 也 是 来 自 高 
斯 ， 因为 从 x 到 h, 的 变换 是 线性 的 。 然 而 ,hi_1i 不 再 有 零 均值 和 单位 方差 。 使 用 批 
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标准 化 后 ， 我 们 得 到 的 归 一 化 hi 恢复 了 零 均值 和 单位 方差 的 特性 。 对 于 底层 的 几 
平 任意 更 新 而 言 ，h1_1 仍然 保持 着 单位 高 斯 。 然 后 输出 少 可 以 学 习 为 一 个 简单 的 线 
性 函数 站 = wih_1。 现 在 学 习 这 个 模型 非常 简单 ， 因 为 低层 的 参数 在 大 多 数 情况 下 
没有 什么 影响 ; 它们 的 输出 总 是 重新 标准 化 为 单位 高 斯 。 只 在 少数 个 例 中 ， 低 层 会 
影响 。 改 变 某 个 低层 权重 为 0， 可 能 使 输出 退化 ; 改变 低层 权重 的 符号 可 能 反 转 
hi Al y 之 间 的 关系 。 这 些 情况 都 是 非常 罕见 的 。 没 有 标准 化 ， 几 乎 每 一 个 更 新 都 
会 对 hi 的 统计 量 有 着 极端 的 影响 。 因 此 ， 批 标准 化 显著 地 使 得 模型 更 易学 习 。 在 
这 个 示例 中 ， 容 易学 习 的 代价 是 使 得 底层 网 络 没有 用 。 在 我 们 的 线性 示例 中 ， 较 低 
层 不 再 有 任何 有 害 的 影响 ， 但 它们 也 不 再 有 任何 有 益 的 影响 。 这 是 因为 我 们 已 经 标 
准 化 了 一 阶 和 二 阶 统计 量 ， 这 是 线性 网 络 可 以 影响 的 所 有 因素 。 在 具有 非 线性 激活 
函数 的 深度 神经 网 络 中 ， 较 低层 可 以 进行 数据 的 非 线性 变换 ， 所 以 它们 仍然 是 有 用 
的 。 批 标准 化 仅 标准 化 每 个 单元 的 均值 和 方差 ， 以 稳定 化 学 习 ， 但 允许 单元 和 单个 
单元 的 非 线性 统计 量 之 间 的 关系 发 生变 化 。 

由 于 网 络 的 最 后 一 层 能 够 学 习 线 性 变换 ， 实 际 上 我 们 可 能 希望 移 除 一 层 内 单元 
之 间 的 所 有 线性 关系 。 事 实 上 ， 这 是 Guillaume Desjardins (2015) 中 采用 的 方法 ， 
为 批 标准 化 提供 了 灵感 。 令 人 遗憾 的 是 ， 消 除 所 有 的 线性 关联 比 标准 化 各 个 独立 单 
元 的 均值 和 标准 差 代 价 更 高 ， 因 此 批 标准 化 仍 是 迄今 最 实用 的 方法 。 

标准 化 一 个 单元 的 均值 和 标准 差 会 降低 包含 该 单元 的 神经 网 络 的 表达 能 力 。 为 
了 保持 网 络 的 表现 力 ， 通 常会 将 批量 隐藏 单元 激活 互 蔡 换 为 YH + B， 而 不 是 简单 
地 使 用 标准 化 的 如。 变量 y 和 6 是 允许 新 变量 有 任意 均值 和 标准 差 的 学 习 参 数 。 
乍 一 看 ,这 似乎 是 无 用 的 一 一 为 什么 我 们 将 均值 设 为 0, 然后 又 引入 参数 允许 它 被 重 
设 为 任意 值 8? 答案 是 新 的 参数 可 以 表示 旧 参 数 作为 输入 的 同一 族 函 数 ， 但 是 新 参 
数 有 不 同 的 学 习 动 态 。 在 旧 参 数 中 , H 的 均值 取决 于 五 下 层 中 参数 的 复杂 关联 。 在 
PEM, yH +8 的 均值 仅 由 6 确定 。 新 参数 很 容易 通过 梯度 下 降 来 学 习 。 

大 多 数 神经 网 络 层 会 采取 AXW + b) 的 形式 ， 其 中 9 是 某 个 固定 的 非 线性 激 
活 函数 ， 如 整流 线性 变换 。 自 然 想到 我 们 应 该 将 批 标 准 化 应 用 于 输入 处 还 是 变换 后 
的 值 XW + b, Ioffe and Szegedy (2015) 推荐 后 者 。 更 具体 地 ， 玉 人 三 二 D 应 替换 为 
XW 的 标准 化 形式 。 偏 置 项 应 被 忽略 ， 因 为 参数 B 会 加 入 批 标准 化 重 参数 化 ， 它 是 
宛 余 的 。 一 层 的 输入 通常 是 前 一 层 的 非 线 性 激活 函数 ( 如 整流 线性 函数 ) 的 输出 。 因 
此 ， 输 入 的 统计 量 更 符合 非 高 斯 ， 而 更 不 服从 线性 操作 的 标准 化 。 

第 九 章 所 述 的 卷 积 网 络 ,在 特征 映射 中 每 个 空间 位 置 同 样 地 标准 化 u 和 ec 是 很 
重要 的 ， 能 使 特征 映射 的 统计 量 不 因 空 间 位 置 而 保持 相同 。 









































wwaibbt.com DODDDDODOD 


dourbz/350DFo 


8.7 优化 策略 和 元 算法 273 


8.7.2 ”坐标 下 降 


在 某 些 情况 下 ， 将 一 个 优化 问题 分 解 成 几 个 部 分 ， 可 以 更 快 地 解决 原 问题 。 如 
果 我 们 相对 于 某 个 单一 变量 r 最 小 化 f(x)， 然 后 相对 于 男 一 个 变量 a; 等 等 ， 反 
复 循 环 所 有 的 变量 ， 我 们 会 保证 到 达 (局 部 ) 极 小 值 。 这 种 做 法 被 称 为 坐标 下 降 
(coordinate descent )， 因 为 我 们 一 次 优化 一 个 坐标 。 更 一 般 地 ， 块 坐标 下 降 (block 
coordinate descent ) 是 指 对 于 某 个 子 集 的 变量 同时 最 小 化 。 术 语 “坐标 下 降 ” 通常 既 
旧 块 坐标 下 降 ， 也 指 严格 的 单个 坐标 下 降 。 

当 优 化 问题 中 的 不 同 变量 能 够 清楚 地 分 成 相对 独立 的 组 ， 或 是 当 优 化 一 组 变量 
明显 比 优化 所 有 变量 效率 更 高 时 ， 坐 标 下 降 最 有 意义 。 例 如 ， 考 虑 代价 函数 


TH W) => \Hij|+ (xX- WH)... (8.38) 
ij ij 











ARRE T PRPA i SA E, AARE AREE WW， 可 
DAZ VE PETS EIEE 五 UERR, MAKEAA I Be BA 
减 或 W 列 范 数 的 约束 ， 以 避免 极 小 五 和 极 大 W 的 病态 解 。 

函数 J 不 是 凸 的。 然而 ,我 们 可 以 将 训练 算法 的 输入 分 成 两 个 集合 : 字典 参数 
W 和 编码 表示 五 。 最 小 化 关于 这 两 者 之 一 的 任意 一 组 变量 的 目标 函数 都 是 凸 问题 。 
因此 ， 块 坐标 下 降 允 许 我 们 使 用 高 效 的 凸 优化 算法 ,交替 固定 五 优化 W 和 固定 W 
优化 H. 

当 一 个 变量 的 值 很 大 程度 地 影响 另 一 个 变量 的 最 优 值 时 ， 坐 标 下 降 不 是 一 个 很 
好 的 方法 ， 如 函数 f(x) = (£1 — r2) + ale? + r2), HP a SIE. FIM 
励 两 个 变量 具有 相似 的 值 ， 而 第 二 项 鼓励 它们 接近 零 。 解 是 两 者 都 为 零 。 牛 顿 法 可 
以 一 步 解 决 这 个 问题 ， 因 为 它 是 一 个 正定 二 次 问题 。 但是， 对 于 小 值 a 而 言 ， 坐 标 
下 降 会 使 进展 非常 缓慢 ， 因 为 第 一 项 不 允许 单个 变量 变 为 和 其 他 变量 当前 值 显 著 不 
同 的 值 。 











8.7.3 Polyak 平均 


Polyak 平均 (Polyak and Juditsky, 1992) 会 平均 优化 算法 在 参数 空间 访问 轨迹 
中 的 几 个 点 。 如 果 七 次 迭代 梯度 下 降 访 问 了 点 09) ,9 ， 那 么 Polyak 平均 算法 
的 输出 是 69 = 1 ,9 在 某 些 问 题 中 ,如 梯度 下 降 应 用 于 凸 问题 时 , 这 种 方法 具 
有 较 强 的 收敛 保证 。 当 应 用 于 神经 网 络 时 ， 其 验证 更 多 是 启发 式 的 ， 但 在 实践 中 表 
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现 良 好 。 基 本 想法 是 ， 优 化 算法 可 能 会 来 回 穿 过 山谷 好 几 次 而 没 经 过 山谷 底部 附近 
的 点 。 尽 管 两 边 所 有 位 置 的 均值 应 比较 接近 谷底 。 

TARA, 优化 轨迹 的 路 径 可 以 非常 复杂 ,并 且 经 过 了 许多 不 同 的 区 域 。 包 
括 参 数 空间 中 遥远 过 去 的 点 ， 可 能 与 当前 点 在 代价 函数 上 相隔 很 大 的 障碍 ， 看 上 去 
不 像 一 个 有 用 的 行为 。 其 结果 是 ， 当 应 用 Polyak 平均 于 非 凸 问题 时 ， 通 常会 使 用 指 
数 衰减 计算 平均 值 : 








6 = 06 + (1 — a)0®. (8.39) 








这 个 计算 平均 值 的 方法 被 用 于 大 量 数值 应 用 中 。 最 近 的 例子 请 查看 Szegedy et al. 
(2015)。 


8.7.4 监督 预 训练 


有 时 ， 如 果 模 型 太 复杂 难以 优化 ， 或 是 如 果 任 务 非常 困难 ， 直 接 训练 模型 来 解 
决 特定 任务 的 挑战 可 能 太 大 。 有 时 训练 一 个 较 简单 的 模型 来 求解 问题 ， 然 后 使 模型 
更 复杂 会 更 有 效 。 训 练 模型 来 求解 一 个 简化 的 问题 ， 然 后 转移 到 最 后 的 问题 ， 有 时 
也 会 更 有 效 些 。 这 些 在 直接 训练 目标 模型 求解 目标 问题 之 前 ， 训 练 简单 模型 求解 简 
化 问题 的 方法 统称 为 预 训练 ( pretraining )。 

贪心 算法 (greedy algorithm ) 将 问题 分 解 成 许多 部 分 ， 然 后 独立 地 在 每 个 部 分 
求解 最 优 值 。 令 人 遗憾 的 是 ， 结 合 各 个 最 佳 的 部 分 不 能 保证 得 到 一 个 最 佳 的 完整 解 。 
然而 , 贪心 算法 计算 上 比 求解 最 优 联合 解 的 算法 高 效 得 多 , 并 且 贪 心算 法 的 解 在 不 是 
最 优 的 情况 下 ， 往 往 也 是 可 以 接受 的 。 贪 心算 法 也 可 以 紧 接 一 个 精 调 ( fine-tuning ) 
阶段 ， 联 合 优化 算法 搜索 全 问题 的 最 优 解 。 使 用 贪心 解 初始 化 联合 优化 算法 ， 可 以 
极 大 地 加 速算 法 ， 并 提高 寻找 到 的 解 的 质量 。 

预 训练 算法 ,特别 是 贪心 预 训 练 ， 在 深度 学 习 中 是 普遍 存在 的 。 在 本 节 中 , 我 们 
会 具体 描述 这 些 将 监督 学 习 问 题 分 解 成 其 他 简化 的 监督 学 习 问 题 的 预 训练 算法 。 这 
种 方法 被 称 为 贪心 监督 预 训练 ( greedy supervised pretraining )。 

在 贪心 监督 预 训练 的 原始 版 本 (Bengio et al., 2007c) 中 ， 每 个 阶段 包括 一 个 仅 
涉及 最 终 神经 网 络 的 子 集 层 的 监督 学 习 训 练 任务 。 贪 心 监督 预 训 练 的 一 个 例子 如 
图 8.7 所 示 ， 其 中 每 个 附加 的 隐藏 层 作为 浅 层 监督 多 层 感 知 机 的 一 部 分 预 训 练 ， 以 先 
前 训练 的 隐藏 层 输 出 作为 输入 。Simonyan and Zisserman (2015) 预 训练 深度 卷 积 网 
络 (11 层 权重 )， 然 后 使 用 该 网 络 前 四 层 和 最 后 三 层 初始 化 更 深 的 网 络 ( 多 达 19 层 
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权重 )， 并 非 一 次 预 训 练 一 层 。 非 常 深 的 新 网 络 的 中 间 层 是 随机 初始 化 的 。 然 后 联合 
训练 新 网 络 。 还 有 一 种 选择 ， 由 Yu et al. (2010) 提出 ， 将 先前 训练 多 层 感知 机 的 输 
出 ， 以 及 原始 输入 ， 作 为 每 个 附加 阶段 的 输入 。 








(c) (d) 











图 8.7: 一 种 形式 的 贪心 监督 预 训练 的 示意 图 (Bengio et al., 2007a). (a) 我 们 从 训练 一 个 足够 浅 
的 架构 开始 。(b) 同一 个 架构 的 另 一 描绘 。(c) 我 们 只 保留 原始 网 络 的 输入 到 隐藏 层 ， 并 丢弃 隐藏 
到 输出 层 。 我 们 将 第 一 层 隐 藏 层 的 输出 作为 输入 发 送 到 另 一 监督 单 隐 层 MLP ( 使 用 与 第 一 个 网 络 
相同 的 目标 训练 )， 从 而 可 以 添加 第 二 层 隐藏 层 。 这 可 以 根据 需要 重复 多 层 。(d) 所 得 架构 的 另 一 
种 描绘 ， 可 视 为 前 馈 网 络 。 为 了 进一步 改进 优化 , 我 们 可 以 联合 地 精 调 所 有 层 ( 仅 在 该 过 程 的 结束 
或 者 该 过 程 的 每 个 阶段 )。 












































为 什么 贪心 监督 预 训练 会 有 帮助 呢 ? 最 初 由 Bengio et al. (2007d) 提出 的 假说 
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是 ， 其 有 助 于 更 好 地 指导 深层 结构 的 中 间 层 的 学 习 。 一 般 情况 下 ， 预 训练 对 于 优化 
和 泛 化 都 是 有 帮助 的 。 

另 一 个 与 监督 预 训练 有 关 的 方法 扩展 了 迁移 学 习 的 想法 : Yosinski et al. (2014) 
在 一 组 任务 上 预 训练 了 8 层 权 重 的 深度 卷 积 网 络 (1000 个 ImageNet 对 象 类 的 子 
集 )， 然 而 用 该 网 络 的 前 k 层 初 始 化 同样 规模 的 网 络 。 然 后 第 二 个 网 络 的 所 有 层 ( 上 
层 随 机 初始 化 ) 联合 训练 以 执行 不 同 的 任务 (1000 个 ImageNet 对 象 类 的 另 一 个 子 
集 )， 但 训练 样本 少 于 第 一 个 任务 。 神 经 网 络 中 另 一 个 和 迁移 学 习 相 关 的 方法 将 在 
第 15.2 节 讨论 。 

另 一 条 相关 的 工作 线 是 FitNets (Romero et al, 2015) 方法 。 这 种 方法 始 于 训 
练 深度 足够 低 和 宽度 足够 大 ( 每 层 单元 数 )， 容 易 训 练 的 网 络 。 然 后 ， 这 个 网 络 成 为 
第 二 个 网 络 ( 被 指定 为 学 生 ) 的 老师 。 学 生 网 络 更 深 更 窗 (11 至 19 层 )， 且 在 正 
常情 况 下 很 难 用 SGD 训练 。 训 练 学 生 网 络 不 仅 需要 预测 原 任务 的 输出 ， 还 需要 预 
测 教师 网 络 中 间 层 的 值 ， 这 样 使 得 训练 学 生 网 络 变 得 更 容易 。 这 个 额外 的 任务 说 明 
了 隐藏 层 应 如 何 使 用 ， 并 且 能 够 简化 优化 问题 。 附 加 参数 被 引信 来 从 更 深 的 学 生 网 
络 中 间 层 去 回归 5 层 教 师 网 络 的 中 间 层 。 然 而 ， 该 目标 是 预测 教师 网 络 的 中 间 隐 藏 
层 ， 并 非 预 测 最 终 分 类 目标 。 学 生 网 络 的 低层 因而 具有 两 个 目标 : 帮助 学 生 网 络 的 
输出 完成 其 目标 和 预测 教师 网 络 的 中 间 层 。 尽 管 一 个 罕 而 深 的 网 络 似乎 比 宽 而 浅 的 
网 络 更 难 训练 ， 但 罕 而 深 网 络 的 泛 化 能 力 可 能 更 好 ， 并 且 如 果 其 足够 窗 ， 人 参数 足够 
少 ， 那 么 其 计算 代价 更 小 。 没 有 隐藏 层 的 提示 ， 学 生 网 络 在 训练 集 和 测试 集 上 的 实 
验 表现 都 很 差 。 因 而 中 间 层 的 提示 是 有 助 于 训练 很 难 训练 的 网 络 的 方法 之 一 , 但 是 
其 他 优化 技术 或 是 架构 上 的 变化 也 可 能 解决 这 个 问题 。 
































8.7.5 ”设计 有 助 于 优化 的 模型 


改进 优化 的 最 好 方法 并 不 总 是 改进 优化 算法 。 相 反 ， 深 度 模型 中 优化 的 许多 改 
进来 自 于 设计 易于 优化 的 模型 。 

原则 上 ， 我 们 可 以 使 用 呈 锯 齿 非 单 调 模式 上 上 下 下 的 激活 函数 , 但 是 ， 这 将 使 
优化 极为 困难 。 在 实践 中 ， 选 择 一 族 容易 优化 的 模型 比 使 用 一 个 强大 的 优化 算法 更 
重要 。 神 经 网 络 学 习 在 过 去 30 年 的 大 多 数 进 步 主要 来 自 于 改变 模型 族 ， 而 非 改变 优 
化 过 程 。1980 年 代用 于 训练 神经 网 络 的 带动 量 的 随机 梯度 下 降 ， 仍 然 是 现代 神经 网 
络 应 用 中 的 前 沿 算法 。 

具体 来 说 ， 现 代 神 经 网 络 的 设计 选择 体现 在 层 之 间 的 线性 变换 ， 几 乎 处 处 可 导 
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的 激活 函数 ， 和 大 部 分 定义 域 都 有 明显 的 梯度 。 特 别 地 ， 创 新 的 模型 ， 如 LSTM， 整 
流 线 性 单元 和 maxout 单元 都 比 先 前 的 模型 ( 如 基于 sigmoid 单元 的 深度 网 络 ) 使 用 
更 多 的 线性 函数 。 这 些 模 型 都 具有 简化 优化 的 性 质 。 如 果 线 性 变换 的 Jacobian 具有 
相对 合理 的 奇异 值 ， 那 么 梯度 能 够 流 经 很 多 层 。 此 外 ， 线 性 函数 在 一 个 方向 上 一 致 
增加 ， 所 以 即使 模型 的 输出 远离 正确 值 ， 也 可 以 简单 清晰 地 计算 梯度 ， 使 其 输出 方 
回 阴 降低 损失 函数 的 方向 移动 。 换 言 之 ， 现 代 神 经 网 络 的 设计 方案 旨 在 使 其 局 部 梯 
度 信息 合理 地 对 应 着 移 向 一 个 遥远 的 解 。 

其 他 的 模型 设计 策略 有 助 于 使 优化 更 简单 。 例 如 ， 层 之 间 的 线性 路 径 或 是 跳 
跃 连接 减少 了 从 较 低层 参数 到 输出 最 短路 径 的 长 度 ， 因 而 缓解 了 梯度 消失 的 问题 
(Srivastava et al., 2015)。 一 个 和 跳跃 连接 相关 的 想法 是 添加 和 网 络 中 间 隐 藏 层 相 
连 的 输出 的 额外 副本 ， 如 GoogLeNet (Szegedy et al., 2014a) 和 深度 监督 网 络 (Lee 
et al., 2014)。 这 些 “ 辅 助 头 ”被 训练 来 执行 和 网 络 顶 层 主要 输出 相同 的 任务 ， 以 确 
保底 层 网 络 能 够 接受 较 大 的 梯度 。 当 训练 完成 时 ， 辅 助 头 可 能 被 丢弃 。 这 是 之 前 小 
节 介 绍 到 的 预 训 练 策略 的 替代 方法 。 以 这 种 方式 ， 我 们 可 以 在 一 个 阶段 联合 训练 所 
有 层 ， 而 不 改变 架构 ， 使 得 中 间 层 ( 特别 是 低层 ) 能 够 通过 更 短 的 路 径 得 到 一 些 有 
些 如 何 更 新 的 有 用 信息 。 这 些 信息 为 底层 提供 了 误差 信和 号。 









































8.7.6 ” 延 拓 法 和 课程 学 习 


正如 第 8.2.7 节 探 讨 的 ， 许 多 优化 挑战 都 来 自 于 代价 函数 的 全 局 结构 ， 不 能 仅 通 
过 局 部 更 新 方向 上 更 好 的 估计 来 解决 。 解 决 这 个 问题 的 主要 方法 是 尝试 初始 化 参数 
到 某 种 区 域内 ， 该 区 域 可 以 通过 局 部 下 降 很 快 连接 到 参数 空间 中 的 解 。 

延 拓 法 (continuation method ) 是 一 族 通过 挑选 初始 点 使 优化 更 容易 的 方法 ， 
以 确保 局 部 优化 花费 大 部 分 时 间 在 表现 良好 的 空间 。 延 拓 法 的 背后 想法 是 构造 一 系 
列 具 有 相同 参数 的 目标 函数 。 为 了 最 小 化 代价 函数 J(0)， 我 们 构建 新 的 代价 函数 
{JO ,... ,J 中 }。 这 些 代 价 函 数 的 难度 逐步 提高 ， 其 中 JO 是 最 容易 最 小 化 的 ，J7("” 
是 最 难 的 ， 真正 的 代价 函数 驱动 整个 过 程 。 当 我 们 说 JO 比 OD 更 容易 时 ， 是 指 
其 在 更 多 的 9 空间 上 表现 良好 。 随 机 初始 化 更 有 可 能 落 人 局 部 下 降 可 以 成 功 最 小 
化 代价 函数 的 区 域 ， 因 为 其 良好 区 域 更 大 。 这 系列 代价 函数 设计 为 前 一 个 解 是 下 一 
个 的 良好 初始 点 。 因 此 ， 我 们 首先 解决 一 个 简单 的 问题 ， 然 后 改进 解 以 解决 逐步 变 
难 的 问题 ， 直 到 我 们 求解 真正 问题 的 解 。 

传统 的 延 拓 法 ( 用 于 神经 网 络 训 练 之 前 的 延 拓 法 ) 通常 基于 平滑 目标 函数 。 读 
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者 可 以 查看 Wu (1997) 了 解 这 类 方法 的 示例 ， 以 及 一 些 相关 方法 的 综述 。 延 拓 法 也 
和 参数 中 加 入 噪声 的 模拟 退火 紧密 相关 (Kirkpatrick et al., 1983)。 延 拓 法 在 最 近 几 
年 非常 成 功 。 参 考 Mobahi and Fisher (2015) 了 解 近 期 文献 的 概述 ， 特 别 是 在 AI 方 
面 的 应 用 。 

传统 上 ， 延 拓 法 主要 用 来 克服 局 部 极 小 值 的 问题 。 具 体 地 ， 它 被 设计 来 在 有 很 
多 局 部 极 小 值 的 情况 下 ， 求 解 一 个 全 局 最 小 点 。 这 些 连 续 方 法 会 通过 “模糊 ”原来 
的 代价 函数 来 构建 更 容易 的 代价 函数 。 这 些 模糊 操作 可 以 是 用 采样 来 近似 





J® (0) = Eg WN (0':0,0(02) (0") (8.40) 











这 个 方法 的 直觉 是 有 些 非 凸 函数 在 模糊 后 会 近似 凸 的 。 在 许多 情况 下 ， 这 种 模糊 保 
留 了 关于 全 局 极 小 值 的 足够 信息 ， 我 们 可 以 通过 逐步 求解 模糊 更 少 的 问题 来 求解 全 
局 极 小 值 。 这 种 方法 有 三 种 可 能 失败 的 方式 。 首 先 ， 它 可 能 成 功 地 定义 了 一 连 串 代 
价 函 数 ， 并 从 开始 的 一 个 凸 函 数 起 ( 逐一 地 ) 沿 着 困 数 链 最 佳 轨迹 逼近 全 局 最 小 值 ， 
但 可 能 需要 非常 多 的 逐步 代价 函数 ,整个 过 程 的 成 本 仍然 很 高 。 另 外 , 即使 延 拓 法 可 
以 适用 ，NP-hard 的 优化 问题 仍然 是 NP-hard。 其 他 两 种 延 拓 法 失败 的 原因 是 不 实 
用 。 其 一 , 不 管 如 何 模糊 ， 函 数 都 没 法 变 成 凸 的， 比如 函数 (A) = -9 7 0。 其 二 ， 郴 
数 可 能 在 模糊 后 是 凸 的 ， 但 模糊 函数 的 最 小 值 可 能 会 追踪 到 一 个 局 部 最 小 值 ， 而 非 
原始 代价 函数 的 全 局 最 小 值 。 

尽管 延 拓 法 最 初 用 来 解决 局 部 最 小 值 的 问题 ， 而 局 部 最 小 值 已 不 再 认为 是 神经 
网 络 优化 中 的 主要 问题 了 。 笠 运 的 是 ， 延 拓 法 仍然 有 所 帮助 。 延 拓 法 引入 的 简化 目 
标 函 数 能 够 消除 平坦 区 域 ， 减 少 梯度 估计 的 方差 ， 提 高 Hessian 和 矩阵 的 条 件数 ,使 局 
部 更 新 更 容易 计算 ,或 是 改进 局 部 更 新 方向 与 朝 问 全 局 解 方向 之 间 的 对 应 关系 。 

Bengio et al. (2009) 指出 被 称 为 课程 学 习 (curriculum learning ) 或 者 塑造 
(shaping ) 的 方法 可 以 被 解释 为 延 拓 法 。 课 程 学 习 基 于 规划 学 习 过 程 的 想法 ， 首 先 
学 习 简 单 的 概念 ， 然 后 逐步 学 习 依 赖 于 这 些 简 化 概念 的 复杂 概念 。 之 前 这 一 基本 
策略 被 用 来 加 速 动物 训练 过 程 (Skinner, 1958; Peterson, 2004; Krueger and Dayan, 
2009) 和 机 顺 学 习 过 程 (Solomonoff, 1989; Elman, 1993; Sanger, 1994)。Bengio et al. 
(2009) 验证 这 一 策略 为 延 拓 法 ， 通 过 增加 简单 样本 的 影响 (通过 分 配 它们 较 大 的 系 
数 到 代价 函数 ,或 者 更 频繁 地 采样 )， 先 前 的 JO 会 变 得 更 容易 。 实 验证 明 ， 在 大 
规模 的 神经 语言 模型 任务 上 使 用 课程 学 习 ， 可 以 获得 更 好 的 结果 。 课 程 学 习 已 经 成 
功 应 用 于 大 量 的 自然 语言 (Spitkovsky et al., 2010; Collobert et al., 2011a; Mikolov 
et al., 2011b; Tu and Honavar, 2011) 和 计算 机 视觉 (Kumar et al., 2010; Lee and 
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Grauman, 2011; Supancic and Ramanan, 2013) 任务 上 。 课程 学 习 被 证 实 为 与 人 类 
教学 方式 一 致 (Khan et al., 2011): 教师 刚 开 始 会 展示 更 容易 、 更 典型 的 示例 ， 然 
后 帮助 学 习 者 在 不 太 显然 的 情况 下 提炼 决策 面 。 在 人 类 教学 上 ， 基 于 课程 学 习 的 
策略 比 基 于 样本 均匀 采样 的 策略 更 有 效 ， 也 能 提高 其 他 学 习 策 略 的 效率 (Basu and 
Christensen, 2013). 
课程 学 习 研 究 的 另 一 个 重要 贡献 体现 在 训练 循环 神经 网 络 捕获 长 期 依赖 ; 
Zaremba and Sutskever (2014) 发 现 使 用 随机 课程 获得 了 更 好 的 结果 ， 其 中 容易 和 困 
难 的 示例 混合 在 一 起 ， 随 机 提供 给 学 习 者 ， 更 难 示 例 (这 些 具 有 长 期 依赖 ) 的 平均 
比例 在 逐渐 上 升 。 具 有 确定 性 课程 , 没有 发 现 超过 基线 ( 完整 训练 集 的 普通 训练 ) 的 
改进 。 

现在 我 们 已 经 介绍 了 一 些 基 本 的 神经 网 络 模型 ， 以 及 如 何 进 行 正则 化 和 优化 。 
在 接 下 来 的 章节 中 ， 我 们 转向 特 化 的 神经 网 络 家 族 ， 人 允许 其 扩展 到 能 够 处 理 很 大 规 
模 的 数据 和 具有 特殊 结构 的 数据 。 在 本 章 中 讨论 的 优化 算法 在 较 少 改动 后 或 者 无 需 
改动 ， 通 常 就 可 以 直接 用 于 这 些 特 化 的 架构 。 
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卷 积 网 络 (convolutional network ) (LeCun, 1989), 也 叫做 卷 积 神经 网 络 (con- 
volutional neural network, CNN )， 是 一 种 专门 用 来 处 理 具 有 类 似 网 格 结构 的 数据 的 
神经 网 络 。 例 如 时 间 序 列 数据 ( 可 以 认为 是 在 时 间 轴 上 有 规律 地 采样 形成 的 一 维 网 
格 ) 和 图 像 数 据 ( 可 以 看 作 是 二 维 的 像素 网 格 )。 卷 积 网 络 在 诸多 应 用 领域 都 表现 优 
异 。“ 卷 积 神经 网 络 ” 一 词 表 明 该 网 络 使 用 了 卷 积 (convolution ) 这 种 数学 运算 。 卷 
积 是 一 种 特殊 的 线性 运算 。 卷 积 网 络 是 指 那些 至 少 在 网 络 的 一 层 中 使 用 卷 积 运算 来 
替代 一 般 的 矩阵 乘法 运算 的 神经 网 络 。 

本 章 ， 我 们 首先 说 明 什么 是 卷 积 运算 。 接 着 ， 我 们 会 解释 在 神经 网 络 中 使 用 卷 
职 运 算 的 动机 。 然 后 我 们 会 介绍 池 化 (pooling), 这 是 一 种 几乎 所 有 的 卷 积 网 络 都 会 
用 到 的 操作 。 通 常 来 说 ， 卷 积 神经 网 络 中 用 到 的 卷 积 运算 和 其 他 领域 ( 例如 工程 领 
域 以 及 纯 数 学 领域 ) 中 的 定义 并 不 完全 一 致 。 我 们 会 对 神经 网 络 实践 中 广泛 应 用 的 
几 种 卷 积 函数 的 变 体 进行 说 明 。 我 们 也 会 说 明 如 何在 多 种 不 同 维 数 的 数据 上 使 用 卷 
职 运算 。 之 后 我 们 讨论 使 得 卷 积 运算 更 加 高 效 的 一 些 方法 。 卷 积 网 络 是 神经 科学 原 
理 影响 深度 学 习 的 典型 代表 。 我 们 之 后 也 会 讨论 这 些 神经 科学 的 原理 ， 并 对 卷 积 网 
络 在 深度 学 习 发 展 史 中 的 作用 作出 评价 。 本 章 没有 涉及 如 何 为 你 的 卷 积 网 络 选择 合 
适 的 结构 ， 因 为 本 章 的 目标 是 说 明 卷 积 网 络 提供 的 各 种 工具 。 和 第 十 一 章 将 会 对 如 何 
在 具体 环境 中 选择 使 用 相应 的 工具 给 出 通用 的 准则 。 对 于 卷 积 网 络 结构 的 研究 进展 
得 如 此 迅速 ， 以 至 于 针对 特定 基准 (benchmark)， 数 月 甚至 几 周 就 会 公开 一 个 新 的 
最 优 的 网 络 结构 ， 甚 至 在 写 这 本 书 时 也 不 好 描述 究竟 哪 种 结构 是 最 好 的 。 然 而 ， 最 
好 的 结构 也 是 由 本 章 所 描述 的 基本 部 件 逐 步 搭建 起 来 的 。 
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9.1 RBR 


在 通常 形式 中 ,， 卷 积 是 对 两 个 实 变 函 数 的 一 种 数学 运算 !。 为 了 给 出 卷 积 的 定义 ， 
我 们 从 两 个 可 能 会 用 到 的 函数 的 例子 出 发 。 

假设 我 们 正在 用 激光 传感器 追踪 一 稻 宇 宙 飞 船 的 位 置 。 我 们 的 激光 传感器 给 出 
一 个 单独 的 输出 et), KREE KARETA t 的 位 置 。xz 和 t 都 是 实 值 的 ， 这 意味 
着 我 们 可 以 在 任意 时 刻 从 传感器 中 读 出 飞船 的 位 置 。 

现在 假设 我 们 的 传感器 受到 一 定 程度 的 噪声 干扰 。 为 了 得 到 飞船 位 置 的 低 噪声 
估计 ， 我 们 对 得 到 的 测量 结果 进行 平均 。 显 然 ， 时 间 上 越 近 的 测量 结果 越 相 关 ， 所 
以 我 们 采用 一 种 加 权 平 均 的 方法 ， 对 于 最 近 的 测量 结果 赋予 更 高 的 权重 。 我 们 可 以 
TRAP PRL w(a) 来 实现 ,其 中 a 表示 测量 结果 距 当 前 时 刻 的 时 间 间 隔 。 如 果 
我 们 对 任意 时 刻 都 采用 这 种 加 权 平 均 的 操作 ， 就 得 到 了 一 个 新 的 对 于 飞船 位 置 的 平 
滑 估计 函数 s: 








s(t) = [rout —a)da. (9.1) 
这 种 运算 就 叫做 AR (convolution )。 卷 积 运算 通常 用 星 号 表示 : 
s(t) = (xx w)(t). (9.2) 


在 我 们 的 例子 中 ，w 必须 是 一 个 有 效 的 概率 密度 函数 ， 否 则 输出 就 不 再 是 一 个 
加 权 平 均 。 另 外 ， 在 参数 为 负 值 时 ，vw 的 取 值 必须 为 0， 否 则 它 会 预测 到 未 来 ， 这 不 
是 我 们 能 够 推测 得 了 的 。 但 这 些 限 制 仅仅 是 对 我 们 这 个 例子 来 说 。 通 党 ， 卷 积 被 定 
义 在 满足 上 述 积分 式 的 任意 函数 上 ， 并 且 也 可 能 被 用 于 加 权 平 均 以 外 的 目的 。 

在 卷 积 网 络 的 术语 中 , 卷 积 的 第 一 个 参数 (在 这 个 例子 中 , 函数 x ) 通常 叫做 输 
入 (input )， 第 二 个 参数 (PAA w ) 叫做 核 函 数 (kernel function )。 输 出 有 时 被 称 
VE 特征 映射 (feature map )。 

在 本 例 中 ， 激 光 传 感 器 在 每 个 瞬间 反馈 测量 结果 的 想法 是 不 切实 际 的 。 一 般 地 ， 
当 我 们 用 计算 机 处 理 数 据 时 ， 时 间 会 被 离散 化 ,传感器 会 定期 地 反馈 数据 。 所 以 在 我 
们 的 例子 中 , 假设 传 感 需 每 秒 反馈 一 次 测量 结果 是 比较 现实 的 。 这 样 ， 时刻 t 只 能 取 
整数 值 。 如 果 我 们 假设 zx 和 w 都 定义 在 整数 时 刻 t+ 上 ,就 可 以 定义 离散 形式 的 卷 积 : 














De 


s(t) = (x x w) (t) = y x(a)w(t — a). (9.3) 


a=—oo 





EAE: 本 书 中 operation 视 语 境 有 时 翻译 成 “运算 ”， 有 时 翻译 成 “操作 ”。 
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在 机 医学 习 的 应 用 中 ,输入 通常 是 多 维 数组 的 数据 ， 而 核 通常 是 由 学 习 算 法 优 
化 得 到 的 多 维 数 组 的 参数 。 我 们 把 这 些 多 维 数组 叫做 张 量 。 因 为 在 输入 与 核 中 的 每 
一 个 元 素 都 必须 明确 地 分 开 存 储 ， 我 们 通常 假设 在 存储 了 数值 的 有 限 点 集 以 外 ， 这 
些 函 数 的 值 都 为 零 。 这 意味 着 在 实际 操作 中 ， 我 们 可 以 通过 对 有 限 个 数组 元 素 的 求 
和 来 实现 无 限 求 和 。 

最 后 ， 我 们 经 常 一 次 在 多 个 维度 上 进行 卷 积 运算 。 例 如 ， 如 果 把 一 张 二 维 的 图 
像 I 作为 输入 ,我 们 也 许 也 想 要 使 用 一 个 二 维 的 核 K: 


S(i,j) = (Te K)( >A (i-—m,j — 7). (9.4) 





卷 积 是 可 交换 的 (commutative)， 我 们 可 以 等 价 地 写作 : 
S(i,j) = (K *1)( = 2 DIE yh) Rm, n). (9.5) 


通常 ， 下 面 的 公式 在 机 器 学 习 库 中 实现 更 为 简单 ， 因 为 mA n 的 有 效 取 值 范围 
相对 较 小 。 


卷 积 运算 可 交换 性 的 出 现 是 因为 我 们 将 核 相 对 输入 进行 了 翻转 (ip), M m 增 

大 的 角度 来 看 ， 输 入 的 索引 在 增 大 ， 但 是 核 的 索引 在 减 小 。 我 们 将 核 翻 转 的 唯一 目 

是 实现 可 交换 性 。 尽 管 可 交换 性 在 证 明 时 很 有 用 ， i a 

个 重要 的 性 质 ,与 之 不 同 的 是 ;许多 神经 网 络 库 会 实现 一 个 相关 的 函数 ， 称 为 互相 
HB (cross-correlation )， 和 卷 积 运算 几乎 一 righ Nations 


S(i,j) = (I * K)( SA eA n). (9.6) 





许多 机 器 学 习 的 库 实现 的 是 互相 关 函 数 但 是 称 之 为 卷 积 。 在 这 本 书 中 我 们 遵循 把 两 
种 运算 都 叫做 卷 积 的 这 个 传统 ， 在 与 核 翻 转 有 关 的 上 下 文中 ,我 们 会 特别 指明 是 否 
对 核 进行 了 翻转 。 在 机 带 学 习 中 , 学 习 算 法 会 在 核 合适 的 位 置 学 得 恰当 的 值 , 所 以 一 
个 基于 核 翻 转 的 卷 积 运算 的 学 习 算法 所 学 得 的 核 ， 是 对 未 进行 翻转 的 算法 学 得 的 核 
的 翻转 。 单 独 使 用 卷 积 运算 在 机 器 学 习 中 是 很 少见 的 ， 卷 积 经 常 与 其 他 的 函数 一 起 
使 用 ， 无 论 卷 积 运算 是 否 对 它 的 核 进行 了 翻转 ， 这 些 函 数 的 组 合 通常 是 不 可 交换 的 。 


图 9.1 演 示 了 一 个 在 2 维 张 量 上 的 卷 积 运算 〈 没 有 对 核 进行 翻转 ) 的 例子 。 


离散 卷 积 可 以 看 作 和 矩阵 的 乘法 , 然而 , 这 个 矩阵 的 一 些 元 素 被 限制 为 必须 和 另外 
一 些 元 素 相 等 。 例 如 对 于 单 变 量 的 离散 卷 积 ， 和 矩阵 每 一 行 中 的 元 素 都 与 上 一 行 对 应 
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图 9.1: 一 个 2 维 卷 积 的 例子 (没有 对 核 进行 翻转 )。 我 们 限制 只 对 核 完全 处 在 图 像 中 的 位 置 进行 
输出 ， 在 一 些 上 下 文中 称 为 “有 效 ” 卷 积 。 我 们 用 画 有 箭头 的 盒子 来 说 明 输 出 张 量 的 左上 角 元 素 是 
如 何 通 过 对 输入 张 量 相应 的 左上 角 区 域 应 用 核 进行 卷 积 得 到 的 。 






































位 置 平移 一 个 单位 的 元 素 相 同 。 这 种 矩阵 叫做 Toeplitz 4# (Toeplitz matrix )。 对 
于 二 维 情况 ， 卷 积 对 应 着 一 个 双重 分 块 循环 德 阵 (doubly block circulant matrix )。 
除了 这 些 元 素 相 等 的 限制 以 外 ， 卷 积 通 常 对 应 着 一 个 非常 稀 下 的 矩阵 (一 个 几乎 所 
有 元 素 都 为 零 的 矩阵 )。 这 是 因为 核 的 大 小 通常 要 远 小 于 输入 图 像 的 大 小 。 任 何 一 个 
使 用 矩阵 乘法 但 是 并 不 依赖 矩阵 结构 的 特殊 性 质 的 神经 网 络 算法 ， 都 适用 于 卷 积 运 
算 ， 并 且 不 需要 对 神经 网 络 做 出 大 的 修改 。 典 型 的 卷 积 神经 网 络 为 了 更 有 效 地 处 理 
大 规模 输入 ， 确 实 使 用 了 一 些 专门 化 的 技巧 ,但 这 些 在 理论 分 析 方 面 并 不 是 严格 必 
要 的 。 
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9.2 ”动机 


卷 积 运算 通过 三 个 重要 的 思想 来 帮助 改进 机 带 学 习 系 统 : Pet A (sparse 
interactions) 参数 共享 ( parameter sharing )、 等 变 表示 (equivariant representa- 
tions )。 另 外 ， 卷 积 提 供 了 一 种 处 理 大 小 可 变 的 输入 的 方法 。 我 们 下 面 依次 介绍 这 些 


HAH 


AE II E E ERE R E A Sa ME AR. AF, SAE 
阵 中 每 一 个 单独 的 参数 都 描述 了 一 个 输入 单元 与 一 个 输出 单元 间 的 交互 。 这 意 
味 着 每 一 个 输出 单元 与 每 一 个 输入 单元 都 产生 交互 。 然 而 ,， 卷 积 网 络 具 有 稀 琉 交 
互 (sparse interactions ) (也 叫做 稀疏 连接 (sparse connectivity) 或 者 稀疏 权重 
(sparse weights )) 的 特征 。 这 是 使 核 的 大 小 远 小 于 输入 的 大 小 来 达到 的 。 举 个 例子 ， 
当 处 理 一 张 图 像 时 ， 输 入 的 图 像 可 能 包含 成 千 上 万 个 像素 点 , 但 是 我 们 可 以 通过 只 
占用 几 十 到 上 百 个 像素 点 的 核 来 检测 一 些小 的 有 意义 的 特征 ， 例 如 图 像 的 边缘 。 这 
意味 着 我 们 需要 存储 的 参数 更 少 ， 不 仅 减 少 了 模型 的 存储 需求 ， 而 且 提 高 了 它 的 统 
计 效 率 。 这 也 意味 着 为 了 得 到 输出 我 们 只 需要 更 少 的 计算 量 。 这 些 效 率 上 的 提高 往 
往 是 很 显著 的 。 如 果 有 m 个 输入 入 n 个 输出 ， 那 么 矩阵 乘法 需要 m x n 个 参数 并 
且 相 应 算法 的 时 间 复 杂 度 为 O(m x n) (对 于 每 一 个 例子 )。 如 果 我 们 限制 每 一 个 输 
出 拥有 的 连接 数 为 x， 那么 稀 玲 的 连接 方法 只 需要 kxn 个 参数 以 及 O(k x n) 的 运 
行 时 间 。 在 很 多 实际 应 用 中 ， 只 需 保持 k 比 mm 小 几 个 数量 级 ， 就 能 在 机 需 学 习 的 
任务 中 取得 好 的 表现 。 稀 玻 连 接 的 图 形 化 解释 如 图 9.2 和 图 9.3 所 示 。 在 深度 卷 积 隐 
络 中 ， 处 在 网 络 深 层 的 单元 可 能 与 绝 大 部 分 输入 是 间接 交互 的 ， 如 图 9.4 所 示 。 这 人 允 
许 网 络 可 以 通过 只 描述 稀 玖 交互 的 基石 来 高 效 地 描述 多 个 变量 的 复杂 交互 。 

参数 共享 ( parameter sharing ) 是 指 在 一 个 模型 的 多 个 函数 中 使 用 相同 的 参数 。 
在 传统 的 神经 网 络 中 ,， 当 计算 一 层 的 输出 时 ,权重 矩阵 的 每 一 个 元 素 只 使 用 一 次 , 当 
它 乘 以 输入 的 一 个 元 素 后 就 再 也 不 会 用 到 了 。 作 为 参数 共享 的 同义词 ， 我 们 可 以 说 
一 个 网 络 含 有 绑 定 的 权重 (tied weights )， 因 为 用 于 一 个 输入 的 权重 也 会 被 绑 定 在 
其 他 的 权重 上 。 在 卷 积 神经 网 络 中 , 核 的 每 一 个 元 素 都 作用 在 输入 的 每 一 位 置 上 (是 
否 考虑 边界 像素 取决 于 对 边界 决策 的 设计 )。 卷 积 运 算 中 的 参数 共享 保证 了 我 们 只 需 
要 学 习 一 个 参数 集合 ， 而 不 是 对 于 每 一 位 置 都 需要 学 习 一 个 单独 的 参数 集合 。 这 虽 
然 没 有 改变 前 向 传播 的 运行 时 间 (仍然 是 O(k x n) ), 但 它 显著 地 把 模型 的 存储 需求 
降低 至 k 个 参数 ,并 且 天 通常 要 比 mm 小 很 多 个 数量 级 。 因 为 m 和 nn 通常 有 着 大 致 
相同 的 大 小 , k 在 实际 中 相对 于 m x n 是 很 小 的 。 因 此 ， 卷 积 在 存储 需求 和 统计 效 
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图 9.2: MEI, MAMA FELA. RIRI S—MaA SIC zs 以 及 在 s 中 受 该 单元 影响 
的 输出 单元 。( 上 ) s 是 由 核 宽 度 为 3 的 卷 积 产 生 时 ， 只 有 三 个 输出 受到 z 的 影响 ?>。( 下 ) 当 s 
是 由 矩阵 乘法 产生 时 ， 连 接 不 再 是 稀 芍 的 ， 所 以 所 有 的 输出 都 会 受到 zs 的 影响 。 























率 方面 极 大 地 优 于 稠密 矩阵 的 乘法 运算 。 图 9.5 演 示 了 参数 共享 是 如 何 实现 的 。 

作为 前 两 条 原则 的 一 个 实际 例子 ， 图 9.6 说 明了 稀 跑 连接 和 参数 共享 是 如 何 显 著 
提高 线性 函数 在 一 张 图 像 上 进行 边缘 检测 的 效率 的 。 

对 于 卷 积 ,参数 共享 的 特殊 形式 使 得 神经 网 络 层 具有 对 平移 等 变 ( equivariance ) 
的 性 质 。 如 果 一 个 函数 满足 输入 改变 , 输出 也 以 同样 的 方式 改变 这 一 性 质 , 我们 就 说 
它 是 等 变 (equivariant) 的 。 特 别 地 ， 如 果 函 数 f(x) 与 g(x) 满足 f(g(x)) = g(f(x))， 
我 们 就 说 f(z) 对 于 变换 g 具有 等 变性 。 对 于 卷 积 来 说 ， 如 果 令 g 是 输入 的 任意 平 
移 函 数 ， 那 么 卷 积 函 数 对 于 g 具有 等 变性 。 举 个 例子 ， 令 了 工 表示 图 像 在 整数 坐标 上 
的 亮度 函数 ，9 表示 图 像 函数 的 变换 函数 (把 一 个 图 像 函数 映 射 到 另 一 个 图 像 函 数 
的 函数 ) 使 得 T = 9g( 门 ， 其 中 图 像 函 数 也 满足 T(x,y) = T(z 一 1,y)。 这 个 函数 把 I 
中 的 每 个 像素 向 右 移动 一 个 单位 。 如 果 我 们 先 对 工 进 行 这 种 变换 然后 进行 卷 积 操作 
所 得 到 的 结果 ， 与 先 对 了 进行 郑 积 然后 再 对 输出 使 用 平移 函数 9 得 到 的 结果 是 一 样 
的 4 。 当 处 理 时 间 序 列 数据 时 ， 这 意味 着 通过 卷 积 可 以 得 到 一 个 由 输入 中 出 现 不 同 特 


“ 译 者 注 : 原文 将 此 处 误 写 成 了 I’. 
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图 9.3: MEIZ, WEIRA E AERA. RIE MATH AC sa 以 及 z 中 影响 该 单元 的 输 
和 单元。 这 些 单元 被 称 为 ss 的 接受 域 ( receptive field) 9. (E) 当 s 是 由 核 宽度 为 3 的 卷 积 产生 
时 ， 只 有 三 个 输入 影响 sso (F) 当 s 是 由 和 矩阵 乘法 产生 时 ， 连 接 不 再 是 稀疏 的 ， 所 以 所 有 的 输入 


都 会 影响 s3。 


EE 


图 9.4: 处 于 卷 积 网 络 更 深 的 层 中 的 单元 ， 它 们 的 接受 域 要 比 处 在 浅 层 的 单元 的 接受 域 更 大 。 如 果 
网 络 还 包含 类 似 步 幅 卷 积 ( 图 9.12 ) 或 者 池 化 (第 9.3 市 ) 之 类 的 结构 特征 ， 这 种 效应 会 加 强 。 这 
意味 着 在 卷 积 网 络 中 尽管 直接 连接 都 是 很 稀 朴 的 ， 但 处 在 更 深 的 层 中 的 单元 可 以 间接 地 连接 到 全 
部 或 者 大 部 分 输入 图 像 。 
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图 9.5: 参数 共享 。 黑 色 箭 头 表 示 在 两 个 不 同 的 模型 中 使 用 了 特殊 参数 的 连接 。( 上 ) 黑色 箭头 表示 
在 卷 积 模型 中 对 3 元 素 核 的 中 间 元 素 的 使 用 。 因 为 参数 共享 ， 这 个 单独 的 参数 被 用 于 所 有 的 输入 
位 置 。( 下 ) 这 个 单独 的 黑色 箭头 表示 在 全 连接 模型 中 对 权重 矩阵 的 中 间 元 素 的 使 用 。 这 个 模型 没 
有 使 用 参数 共享 ， 所 以 参数 只 使 用 了 一 次 。 









































征 的 时 刻 所 组 成 的 时 间 轴 。 如 果 我 们 把 输入 中 的 一 个 事件 向 后 延 时 ， 在 输出 中 仍然 
会 有 完全 相同 的 表示 ,只 是 时 间 延 后 了 。 图 像 与 之 类 似 ， 卷 积 产 生 了 一 个 2 维 映射 
来 表明 某 些 特征 在 输入 中 出 现 的 位 置 。 如 果 我 们 移动 输入 中 的 对 象 ， 它 的 表示 也 会 
在 输出 中 移动 同样 的 量 。 当 人 处 理 多 个 输入 位 置 时 ， 一 些 作用 在 邻居 像素 的 函数 是 很 
有 用 的 。 例 如 在 处 理 图像 时 ， 在 卷 积 网 络 的 第 一 层 进行 图 像 的 边缘 检测 是 很 有 用 的 。 
相同 的 边缘 或 多 或 少 地 散落 在 图 像 的 各 处 ， 所 以 应 当 对 整个 图 像 进行 参数 共享 。 但 
在 某 些 情况 下 ， 我 们 并 不 希望 对 整 幅 图 进行 参数 共享 。 例 如 ， 在 处 理 已 经 通过 剪裁 
而 使 其 居中 的 人 脸 图 像 时 ,我们 可 能 想 要 提取 不 同位 置 上 的 不 同 特征 (处理 人 脸 上 
部 的 部 分 网 络 需要 去 搜寻 眉毛 ， 处 理 人 脸 下 部 的 部 分 网 络 就 需要 去 搜寻 下 巴 了 )。 

卷 积 对 其 他 的 一 些 变换 并 不 是 天 然 等 变 的 ， 例 如 对 于 图 像 的 放 缩 或 者 旋转 变换 ， 
需要 其 他 的 一 些 机 制 来 处 理 这 些 变换 。 

最 后 ,一 些 不 能 被 传统 的 由 ( 固定 大 小 的 ) 矩阵 乘法 定义 的 神经 网 络 处 理 的 特 
殊 数 据 ， 可 能 通过 卷 积 神经 网 络 来 处 理 ， 我 们 将 在 第 9.7 节 中 进行 讨论 。 
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9.6: 边缘 检测 的 效率 。 右 边 的 图 像 是 通过 先 获得 原始 图 像 中 的 每 个 像素 ， 然 后 减 去 左边 相 邻 像 
素 的 值 而 形成 的 。 这 个 操作 给 出 了 输入 图 像 中 所 有 垂直 方向 上 的 边缘 的 强度 , 对 目标 检测 来 说 是 有 
用 的 。 两 个 图 像 的 高 度 均 为 280 个 像素 。 输入 图 像 的 宽度 为 320 个 像素 ， 而 输出 图 像 的 宽度 为 319 
个 像素 。 这 个 变换 可 以 通过 包含 两 个 元 素 的 卷 积 核 来 描述 , 使 用 卷 积 需要 319 x 280 x 3 = 267, 960 
次 浮 点 运算 ( 每 个 输出 像素 需要 两 次 乘法 和 一 次 加 法 )。 为 了 用 符 阵 乘法 描述 相同 的 变换 ， 需 要 一 
个 包含 320 x 280 x 319 x 280 个 或 者 说 超过 80 亿 个 元 素 的 矩阵 ， 这 使 得 卷 积 对 于 表示 这 种 变换 
BAR 40 亿 倍 。 直接 运行 矩阵 乘法 的 算法 将 执行 超过 160 亿 次 浮 点 运算 ， 这 使 得 卷 积 在 计算 上 大 
约 有 60,000 倍 的 效率 。 当 然 ， 矩 阵 的 大 多 数 元 素 将 为 零 。 如 果 我 们 只 存储 矩阵 的 非 零 元 ， 则 和 矩阵 
乘法 和 卷 积 都 需要 相同 数量 的 浮 点 运算 来 计算 。 和 矩阵 仍然 需要 包含 2 x 319 x 280 = 178, 640 个 元 
素 。 将 小 的 局 部 区 域 上 的 相同 线性 变换 应 用 到 整个 输入 上 ， 卷 积 是 描述 这 种 变换 的 极其 有 效 的 方 
法 。 照 片 来 源 : Paula Goodfellow. 
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卷 积 网 络 中 一 个 典型 层 包 含 三 级 ( 如 图 9.7 所 示 ) 在 第 一 级 中 , 这 一 层 并 行 地 计 
算 多 个 卷 积 产生 一 组 线性 激活 响应 。 在 第 二 级 中 , 每 一 个 线性 激活 响应 将 会 通过 一 个 
非 线 性 的 激活 函数 ， 例 如 整流 线性 激活 函数 。 这 一 级 有 时 也 被 称 为 探测 级 ( detector 
stage )。 在 第 三 级 中 ， 我 们 使 用 池 化 函数 (pooling function ) 来 进一步 调整 这 一 层 
的 输出 。 








Complex layer terminology Simple layer terminology 


Convolutional Layer 


Pooling stage Pooling layer 


Detector stage: 
. 8 Detector layer: Nonlinearity 
Nonlinearity en . 
ee e.g., rectified linear 
e.g., rectified linear 


Convolution stage: Convolution layer: 
Affine transform Affine transform 
Input to layer Input to layers 


图 9.7: 一 个 典型 卷 积 ile li 有 两 组 常用 的 术语 用 于 描述 这 些 层 。( 左 ) 在 这 组 术语 中 ， 
卷 积 网 络 被 视 为 少量 相对 复杂 的 层 ， 每 层 具有 许多 “级 ”。 在 这 组 术语 中 ， 核 张 量 与 网 络 层 之 间 存 
在 一 一 对 应 关系 。 在 本 书 中 ， 我 们 通常 使 用 这 组 术语 。 al 在 这 组 术语 中 ， 卷 积 网 络 被 视 为 更 多 
数量 的 简单 层 ; 每 一 个 处 理 步骤 都 被 认为 是 一 个 独立 的 层 。 这 意味 着 不 是 每 一 “ 层 ” 都 有 参数 。 



















































































池 化 函数 使 用 某 一 位 置 的 相 邻 输出 的 总 体 统计 特征 来 代替 网 络 在 该 位 置 的 输出 。 
例如 ， 最 大 池 化 (max pooling ) 函数 (Zhou and Chellappa, 1988) 给 出 相 邻 矩形 区 
域内 的 最 大 值 。 其 他 常用 的 池 化 函数 包括 相 邻 矩形 区 域内 的 平均 值 、Z2 范 数 以 及 基 
于 据 中 心 像素 距离 的 加 权 平 均 函 数 。 
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不 管 采用 什么 样 的 池 化 函数 ， 当 输入 作出 少量 平移 时 ， 池 化 能 够 帮助 输入 的 表 
示 近 似 不 变 (invariant )。 对 于 平移 的 不 变性 是 指 当 我 们 对 输入 进行 少量 平移 时 ， 经 
过 池 化 函数 后 的 大 多 数 输 出 并 不 会 发 生 改变 。 图 9.8 用 了 一 个 例子 来 说 明 这 是 如 何 实 
现 的 。 局 部 平移 不 变性 是 一 个 很 有 用 的 性 质 ， 尤 其 是 当 我 们 关心 某 个 特征 是 否 出 现 
而 不 关心 它 出 现 的 具体 位 置 时 。 例 如 ， 当 判定 一 张 图 像 中 是 否 包含 人 脸 时 ， 我 们 并 
不 需要 知道 眼睛 的 精确 像素 位 置 ， 我们 只 需要 知道 有 一 只 眼睛 在 脸 的 左边 ， 有 一 只 
在 右边 就 行 了 。 但 在 一 些 其 他 领域 ,保存 特征 的 具体 位 置 却 很 重要 。 例 如 当 我 们 想 
要 寻找 一 个 由 两 条 边 相 交 而 成 的 拐角 时 ， 我 们 就 需要 很 好 地 保存 边 的 位 置 来 判定 它 
们 是 否 相交 。 
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图 9.8: 最 大 池 化 引入 了 不 变性 。( 上 ) 卷 积 层 中 间 输 出 的 视图 。 下 面 一 行 显示 非 线 性 的 输出 。 上 面 
一 行 显示 最 大 池 化 的 输出 ， 每 个 池 的 宽度 为 三 个 像素 并 且 池 化 区 域 的 步 幅 为 一 个 像素 。( 下 ) 相同 
网 络 的 视图 ， 不 过 对 输入 右 移 了 一 个 像素 。 下 面 一 行 的 所 有 值 都 发 生 了 改变 , 但 上 面 一 行 上 只 有 一 
半 的 值 发 生 了 改变 ,这 是 因为 最 大 池 化 单元 只 对 周围 的 最 大 值 比较 敏感 ， 而 不 是 对 精确 的 位 置 。 
























































使 用 池 化 可 以 看 作 是 增加 了 一 个 无 限 强 的 先 验 : 这 一 层 学 得 的 函数 必须 具有 对 
少量 平移 的 不 变性 。 当 这 个 假设 成 立时 ， 池 化 可 以 极 大 地 提高 网 络 的 统计 效率 。 

对 空间 区 域 进 行 池 化 产生 了 平移 不 变性 ， 但 当 我 们 对 分 离 参数 的 卷 积 的 输出 进 
行 池 化 时 ， 特 征 能 够 学 得 应 该 对 于 哪 种 变换 具有 不 变性 ( 如 图 9.9 所 示 )。 
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图 9.9: 学 习 不 变性 的 示例 。 使 用 分 离 的 参数 学 得 多 个 特征 ， 再 使 用 池 化 单元 进行 池 化 ， 可 以 学 得 
对 输入 的 某 些 变换 的 不 变性 。 这 里 我 们 展示 了 用 三 个 学 得 的 过 滤器 和 一 个 最 大 池 化 单元 可 以 学 得 
对 旋转 变换 的 不 变性 。 这 三 个 过 滤器 都 旧 在 检测 手写 的 数字 5。 每 个 过 滤器 尝试 匹配 稍微 不 同方 向 
的 5。 当 输入 中 出 现 5 时 ， 相 应 的 过 滤 需 会 匹配 它 并 且 在 探测 单元 中 引起 大 的 激活 。 然 后 ， 无 论 哪 
个 探测 单元 被 激活 ， 最 大 池 化 单元 都 具有 大 的 激活 = 我 们 在 这 里 演示 了 网 络 如 何 处 理 两 个 不 同 的 输 
入 ， 这 导致 两 个 不 同 的 探测 单元 被 激活 ， 然 而 对 池 化 单元 的 影响 大 致 相同 。 这 个 原则 在 maxout 网 
络 (Goodfellow et al., 2013b) 和 其 他 卷 积 网 络 中 更 有 影响 。 空 间 位 置 上 的 最 大 池 化 对 于 平移 是 天 
然 不 变 的 ; 这 种 多 通道 方法 只 在 学 习 其 他 变换 时 是 必要 的 。 
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因为 池 化 综合 了 全 部 邻居 的 反馈 ， 这 使 得 池 化 单元 少 于 探测 单元 成 为 可 能 ， 我 
们 可 以 通过 综合 池 化 区 域 的 个 像素 的 统计 特征 而 不 是 单个 像素 来 实现 。 图 9.10 给 
出 了 一 个 例子 。 这 种 方法 提高 了 网 络 的 计算 效率 ， 因 为 下 一 层 少 了 约 有 倍 的 输入 。 
当下 一 层 的 参数 数目 是 关于 那 一 层 输 入 大 小 的 函数 时 例如 当下 一 层 是 全 连接 的 基 
于 和 矩阵 乘法 的 网 络 层 时 )， 这 种 对 于 输入 规模 的 减 小 也 可 以 提高 统计 效率 并 且 减 少 对 
于 参数 的 存储 需求 。 

在 很 多 任务 中 ,， 池 化 对 于 处 理 不 同 大 小 的 输入 具有 重要 作用 。 例 如 我 们 想 对 不 
同 大 小 的 图 像 进行 分 类 时 ， 分 类 层 的 输入 必须 是 固定 的 大 小 ， 而 这 通 党 通过 调整 池 
化 区 域 的 偏 置 大 小 来 实现 ， 这 样 分 类 层 总 是 能 接收 到 相同 数量 的 统计 特征 而 不 管 最 
初 的 输入 大 小 了 。 例 如 ， 最 终 的 池 化 层 可 能 会 输出 四 组 综合 统计 特征 ， 每 组 对 应 着 
图 像 的 一 个 象限 ， 而 与 图 像 的 大 小 无 关 。 


一 些 理论 工作 对 于 在 不 同情 况 下 应 当 使 用 哪 种 池 化 函数 给 出 了 一 些 指导 
(Boureau et al., 2010)。 将 特征 一 起 动态 地 池 化 也 是 可 行 的 ， 例如， 对 于 感 兴 
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图 9.10: 带 有 降 采 样 的 池 化 。 这 里 我 们 使 用 最 大 池 化 ， 池 的 宽度 为 三 并 且 池 之 间 的 步 幅 为 二 。 这 使 
得 表示 的 大 小 减少 了 一 半 , 减轻 了 下 一 层 的 计算 和 统计 负担 。 注 意 到 最 右边 的 池 化 区 域 尺 寸 较 小 ， 
但 如 果 我 们 不 想 忽略 一 些 探测 单元 的 话 就 必须 包含 这 个 区 域 。 

















特征 的 位 置 运行 聚 类 算法 (Boureau et al., 2011)。 这 种 方法 对 于 每 幅 图 像 产 生 一 个 
不 同 的 池 化 区 域 集 合 。 男 一 种 方法 是 先 学 习 一 个 单独 的 池 化 结构 ， 再 应 用 到 全 部 的 
图 像 中 (Jia et al., 2012)。 

池 化 可 能 会 使 得 一 些 利 用 自 项 向 下 信息 的 神经 网 络 结构 变 得 复杂 ， 例 如 玻 尔 效 
曼 机 和 自 编码 器 。 这 些 问 题 将 在 第 三 章 中 当 我 们 遇 到 这 些 类 型 的 网 络 时 进一步 讨论 。 
卷 积 玻 尔 兹 曼 机 中 的 池 化 出 现在 第 20.6 节 。 一些 可 微 网 络 中 需要 的 在 池 化 单元 上 进 
行 的 类 首 运 算 将 在 第 20.10.6 节 中 讨论 。 

图 9.11 给 出 了 一 些 使 用 卷 积 和 池 化 操作 的 用 于 分 类 的 完整 卷 积 网 络 结构 的 例子 。 
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Output of sottmax: Output of softtmax: Output of softtmax: 
1,000 class 1,000 class 1,000 class 
probabilities probabilities probabilities 


Output of matrix Output of matrix Output of average 
multiply: 1,000 units multiply: 1,000 units pooling: 1x1x1,000 


Output of reshape to Output of reshape to Output o 


vector: vector: convolution: 


16,384 units 576 units 16x16x1,000 


th stride ds | | Output of pooling to | jsaaod 
with str : Bde Lege cigs es ce with str : 
16x16x64 ide sie ia 16x16x64 


Output o Output o Output o 
convolution + convolution + convolution + 
ReLU: 64x64x64 ReLU: 64x64x64 ReLU: 64x64x64 


Output of pooling Output of pooling Output of pooling 
with stride 4: with stride 4: with stride 4: 
64x64x64 64x64x64 64x64x64 


Output o Output o: Output o 
convolution + convolution + convolution + 
ReLU: 256x256x64 ReLU: 256x256x64 ReLU: 256x256x64 


256x256x3 256x256x3 256x256x3 
图 9.11: 卷 积 网 络 用 于 分 类 的 结构 示例 。 本 图 中 使 用 的 具体 步 幅 和 深度 并 不 建议 实际 使 用 ; 它们 
被 设计 得 非常 浅 以 适合 页 面 。 实 际 的 卷 积 网 络 还 常常 涉及 大 量 的 分 支 ， 不 同 于 这 里 为 简单 起 见 所 
使 用 的 链 式 结构 。( 左 ) 处 理 固 定 大 小 的 图 像 的 卷 积 网 络 。 在 卷 积 层 和 池 化 层 几 层 交 替 之 后 ， 卷 积 
特征 映射 的 张 量 被 重新 变形 以 展 平 空间 维度 。 网 络 的 其 余部 分 是 一 个 普通 的 前 馈 网 络 分 类 器 ， 如 
六 章 所 述 。( 中 ) 处 理 大 小 可 变 的 图 像 的 卷 积 网 络 ， 但 仍 保持 全 连接 的 部 分 。 该 网 络 使 用 具有 可 
变 大 小 但 是 数量 固定 的 池 的 池 化 操作 ， 以 便 向 网 络 的 全 连接 部 分 提供 固定 576 个 单位 大 小 的 向 量 。 
(E) 没有 任何 全 连接 权重 层 的 卷 积 网 络 。 相 对 的 ， 最 后 的 卷 积 层 为 每 个 类 输出 一 个 特征 映射 。 该 
模型 可 能 会 用 来 学 习 每 个 类 出 现在 每 个 空间 位 置 的 可 能 性 的 映射 。 将 特征 映射 进行 平均 得 到 的 单 
个 值 ， 提 供 了 顶部 softmax 分 类 器 的 变量 。 
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9.4 ” 卷 积 与 池 化 作为 一 种 无 限 强 的 先 验 


回忆 一 下 第 5.2 节 中 先 验 概率 分 布 (prior probability distribution ) 的 概念 。 这 
是 一 个 模型 参数 的 概率 分 布 ， 它 刻画 了 在 我 们 看 到 数据 之 前 我 们 认为 什么 样 的 模型 
是 合理 的 信念 。 

先 验 被 认为 是 强 或 者 弱 取决 于 先 验 中 概率 密度 的 集中 程度 。 弱 先 验 具 有 较 高 的 
炉 值 ， 例 如 方差 很 大 的 高 斯 分 布 。 这 样 的 先 验 允 许 数据 对 于 参数 的 改变 具有 或 多 或 
少 的 自由 性 。 强 先 验 具有 较 低 的 炉 值 ， 例 如 方差 很 小 的 高 斯 分 布 。 这 样 的 先 验 在 决 
定 参数 最 终 取 值 时 起 着 更 加 积极 的 作用 。 

一 个 无 限 强 的 先 验 需要 对 一 些 参数 的 概率 置 零 并 且 完 全 禁止 对 这 些 参 数 赋值 ， 
无 论 数据 对 于 这 些 参 数 的 值 给 出 了 多 大 的 支持 。 

我 们 可 以 把 卷 积 网 络 类 比 成 全 连接 网 络 ， 但 对 于 这 个 全 连接 网 络 的 权重 有 一 个 
无 限 强 的 先 验 。 这 个 无 限 强 的 先 验 是 说 一 个 隐藏 单元 的 权重 必须 和 它 邻 居 的 权重 相 
同 ， 但 可 以 在 空间 上 移动 。 这 个 先 验 也 要 求 除了 那些 处 在 隐藏 单元 的 小 的 空间 连续 
的 接受 域内 的 权重 以 外 ， 其 余 的 权重 都 为 零 。 总 之 ,我 们 可 以 把 卷 积 的 使 用 当 作 是 
对 网 络 中 一 层 的 参数 引入 了 一 个 无 限 强 的 先 验 概率 分 布 。 这 个 先 验 说 明了 该 层 应 该 
学 得 的 函数 只 包含 局 部 连接 关系 并 且 对 平移 具有 等 变性 。 类 似 的 ， 使 用 池 化 也 是 一 
个 无 限 强 的 先 验 : 每 一 个 单元 都 具有 对 少量 平移 的 不 变性 。 

当然 ， 把 卷 积 神经 网 络 当 作 一 个 具有 无 限 强 先 验 的 全 连接 网 络 来 实现 会 导致 极 
大 的 计算 浪费 。 但 把 卷 积 神经 网 络 想 成 具有 无 限 强 先 验 的 全 连接 网 络 可 以 帮助 我 们 
更 好 地 洞察 卷 积 神经 网 络 是 如 何 工 作 的 。 

其 中 一 个 关键 的 洞察 是 卷 积 和 池 化 可 能 导致 欠 拟 合 。 与 任何 其 他 先 验 类 似 ， 卷 
积 和 池 化 只 有 当先 验 的 假设 合理 且 正 确 时 才 有 用 。 如 果 一 项 任务 依赖 于 保存 精确 
的 空间 信息 ， 那 么 在 所 有 的 特征 上 使 用 池 化 将 会 增 大 训练 误差 。 一 些 卷 积 网 络 结 
构 (Szegedy et al., 2014a) 为 了 既 获 得 具有 较 高 不 变性 的 特征 又 获得 当 平 移 不 变性 不 
合理 时 不 会 导致 从 拟 合 的 特征 ， 被 设计 成 在 一 些 通 道上 使 用 池 化 而 在 另 一 些 通 道上 
不 使 用 。 当 一 项 任务 涉及 到 要 对 输入 中 相隔 较 远 的 信息 进行 合并 时 ， 那 么 卷 积 所 利 
用 的 先 验 可 能 就 不 正确 了 。 

另 一 个 关键 洞察 是 当 我 们 比较 卷 积 模型 的 统计 学 习 表 现时 ， 只 能 以 基准 中 的 其 
他 卷 积 模型 作为 比较 的 对 象 。 其 他 不 使 用 卷 积 的 模型 即使 我 们 把 图 像 中 的 所 有 像素 
点 都 置换 后 依然 有 可 能 进行 学 习 。 对 于 许多 图 像 数 据 集 ， 还 有 一 些 分 别 的 基准 ， 有 
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些 是 针对 那些 具有 置换 不 变性 (permutation invariant ) 并 且 必 须 通过 学 习 发 现 拓 
扑 结构 的 模型 ， 还 有 一 些 是 针对 模型 设计 者 将 空间 关系 的 知识 植 人 了 它们 的 模型 。 


95 “基本 卷 积 函数 的 变 体 


当 在 神经 网 络 的 上 下 文中 讨论 卷 积 时 ， 我 们 通常 不 是 特 指数 学 文献 中 使 用 的 那 
种 标准 的 离散 卷 积 运算 。 实 际 应 用 中 的 函数 略 有 不 同 。 这 里 我 们 详细 讨论 一 下 这 些 
差异 ， 并 且 对 神经 网 络 中 用 到 的 函数 的 一 些 重要 性 质 进行 重点 说 明 。 

首先 ， 当 我 们 提 到 神经 网 络 中 的 卷 积 时 ， 我 们 通常 是 指 由 多 个 并 行 卷 积 组 成 的 
运算 。 这 是 因为 具有 单个 核 的 卷 积 只 能 提取 一 种 类 型 的 特征 ， 尽 管 它 作用 在 多 个 空 
间 位 置 上 。 我 们 通常 希望 网 络 的 每 一 层 能 够 在 多 个 位 置 提取 多 种 类 型 的 特征 。 

另外 ， 输 入 通常 也 不 仅仅 是 实 值 的 网 格 ， 而 是 由 一 系列 观测 数据 的 向 量 构成 的 
网 格 。 例 如 ， 一 幅 彩色 图 像 在 每 一 个 像素 点 都 会 有 红 绿 蓝 三 种 颜色 的 亮度 。 在 多 层 
的 卷 积 网 络 中 ， 第 二 层 的 输入 是 第 一 层 的 输出 ， 通 常 在 每 个 位 置 包 含 多 个 不 同 卷 积 
的 输出 。 当 处理 图 像 时 ， 我 们 通常 把 卷 积 的 输入 输出 都 看 作 是 3 维 的 张 量 ， 其 中 一 
个 索引 用 于 标明 不 同 的 通道 ( 例如 红 绿 蓝 )， 另 外 两 个 索引 标明 在 每 个 通道 上 的 空间 
坐标 。 软 件 实现 通 稼 使 用 批 处 理 模式 ， 所 以 实际 上 会 使 用 4 维 的 张 量 ， 第 四 维 索 引 
用 于 标明 批 处 理 中 不 同 的 实例 ， 但 我 们 为 简明 起 见 这 里 忽略 批 处 理 索引 。 

因为 卷 积 网 络 通常 使 用 多 通道 的 卷 积 ， 所 以 即使 使 用 了 核 翻 转 ， 也 不 一 定 保 证 
网 络 的 线性 运算 是 可 交换 的 。 只 有 当 其 中 的 每 个 运算 的 输出 和 输入 具有 相同 的 通道 
数 时 ,这 些 多 通道 的 运算 才 是 可 交换 的 。。 

假定 我 们 有 一 个 4 维 的 核 张 量 K， 它 的 每 一 个 元 素 是 Kijo Karih PeF 
通道 i 的 一 个 单元 和 输入 中 处 于 通道 7 中 的 一 个 单元 的 连接 强度 ， 并 且 在 输出 单元 
和 输入 单元 之 间 有 天 行 ! 列 的 侦 置 。 假 定 我 们 的 输入 由 观测 数据 V 组 成 ， 它 的 每 一 
个 元 素 是 Vjx， 表 示人 处 在 通道 i 中 第 j 行 第 列 的 值 。 假 定 我 们 的 输出 Z 和 输入 
V 具有 相同 的 形式 。 如 果 输 出 Z 是 通过 对 K 和 V 进行 卷 积 而 不 涉及 翻转 K 得 到 
的 ， 那 么 





























Zijk = > Vij+m—1,k+n—1Ki,tm,ns (9.7) 


lm,n 


这 里 对 所 有 的 1, m 和 n 进行 求 和 是 对 所 有 (在 求 和 式 中 ) 有 效 的 张 量 索引 的 值 进 
行 求 和 。 在 线性 代数 中 ， 向 量 的 索引 通常 从 1 开始 ， 这 就 是 上 述 公 式 中 一 1 的 由 来 。 
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但 是 像 C 或 Python 这 类 编程 语言 索引 通常 从 0 开始 ， 这 使 得 上 述 公 式 可 以 更 加 简 
滞 。 

我 们 有 时 会 希望 跳 过 核 中 的 一 些 位 置 来 降低 计算 的 开销 (相应 的 代价 是 提取 
特征 没有 先前 那么 好 了 )。 我 们 可 以 把 这 一 过 程 看 作 是 对 全 卷 积 函 数 输出 的 下 采样 
(downsampling)。 如 果 我 们 只 想 在 输出 的 每 个 方向 上 每 间隔 s 个 像素 进行 采样 ， 那 
么 我 们 可 以 定义 一 个 下 采样 卷 积 函数 c 使 得 

Zijk = c(K,V, S)ij,k = `> [ọV -xs +m, (k-n, Ki m. (9.8) 
lmn 
我 们 把 s 称 为 下 采样 卷 积 的 步 幅 (stride )。 当 然 也 可 以 对 每 个 移动 方向 定义 不 同 的 
步 幅 。 图 9.12 演示 了 一 个 实例 。 

在 任何 卷 积 网 络 的 实现 中 都 有 一 个 重要 性 质 ， 那 就 是 能 够 隐 含 地 对 输入 V 用 零 
进行 填充 (pad) 使 得 它 加 宽 。 如 果 没 有 这 个 性 质 , 表示 的 宽度 在 每 一 层 就 会 缩减 , 缩 
减 的 幅度 是 比 核 少 一 个 像素 这 么 多 。 对 输入 进行 零 填充 允许 我 们 对 核 的 宽度 和 输出 
的 大 小 进行 独立 的 控制 。 如 果 没 有 和 零 填 充 ， 我 们 就 被 迫 面临 三 选 一 的 局 面 ， 要么 选 
择 网 络 空间 宽度 的 快速 缩减 ， 要 么 选择 一 个 小 型 的 核 一 一 这 两 种 情境 都 会 极 大 得 限 
制 网 络 的 表示 能 力 。 图 9.13 给 出 了 一 个 例子 。 

有 三 种 零 填 充 设 定 的 情况 值得 注意 。 第 一 种 是 无 论 怎样 都 不 使 用 零 填 充 的 极端 
情况 ， 并 且 卷 积 核 具 允许 访问 那些 图 像 中 能 够 完全 包含 整个 核 的 位 置 。 在 MATLAB 
的 术语 中 ， 这 称 为 有 效 (valid) 卷 积 。 在 这 种 情况 下 ， 输 出 的 所 有 像素 都 是 输入 中 
相同 数量 像素 的 函数 ， 这 使 得 输出 像素 的 表示 更 加 规范 。 然 而 ， 输 出 的 大 小 在 每 一 
层 都 会 缩减 5 如 果 输 入 的 图 像 宽度 是 四， 核 的 宽度 是 大， 那么 输出 的 宽度 就 会 变 成 
m 一 大 十 1。 如 果 卷 积 核 非常 大 的 话 缩减 率 会 非常 显著 。 因 为 缩减 数 大 于 0， 这 限制 
了 网 络 中 能 够 包含 的 卷 积 层 的 层 数 。 当 层 数 增加 时 ， 网 络 的 空间 维度 最 终 会 缩减 到 
1 x 1， 这 种 情况 下 增加 的 层 就 不 可 能 进行 有 意义 的 卷 积 了 。 第 二 种 特殊 的 情况 是 只 
进行 足够 的 零 填 充 来 保持 输出 和 输入 具有 相同 的 大 小 。 在 MATLAB 的 术语 中 ， 这 
称 为 相同 (same) 卷 积 。 在 这 种 情况 下 ， 只 要 硬件 支持 ， 网 络 就 能 包含 任意 多 的 卷 
积 层 ， 这 是 因为 卷 积 运算 不 改变 下 一 层 的 结构 。。 然 而 ， 输 入 像素 中 靠近 边界 的 部 分 
相 比 于 中 间 部 分 对 于 输出 像素 的 影响 更 小 。 这 可 能 会 导致 边界 像素 存在 一 定 程度 的 
从 表示 。 这 使 得 第 三 种 极端 情况 产生 了 , 在 MATLAB 中 称 为 全 (full) 卷 积 。 它 进 
行 了 足够 多 的 零 填 充 使 得 每 个 像素 在 每 个 方向 上 恰好 被 访问 了 大 次， 最 终 输 出 图 像 
的 宽度 为 m 十 k 一 1。 在 这 种 情况 下 ， 输 出 像素 中 靠近 边界 的 部 分 相 比 于 中 间 部 分 是 
更 少 像素 的 函数 。 这 将 导致 学 得 一 个 在 卷 积 特征 映射 的 所 有 位 置 都 表现 不 错 的 单 核 
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图 9.12: 带 有 步 幅 的 卷 积 。 在 这 个 例子 中 ,我 们 的 步 幅 为 二 。( 上 ) 在 单个 操作 中 实现 的 步 幅 为 二 的 
卷 积 。( 下 ) 步 幅 大 于 一 个 像素 的 卷 积 在 数学 上 等 价 于 单位 步 幅 的 卷 积 随后 降 采 样 。 显 然 ， 涉 及 降 采 
样 的 两 步 法 在 计算 上 是 浪费 的 ， 因 为 它 计算 了 许多 将 被 丢弃 的 值 。 

















更 为 困难 。 通 常 零 填 充 的 最 优 数量 ( 对 于 测试 集 的 分 类 正确 率 ) 处 于 “有 效 卷 积 ”和 
“相同 卷 积 ”之 间 的 某 个 位 置 。 

在 一 些 情况 下 ， 我 们 并 不 是 真 的 想 使 用 卷 积 ， 而 是 想 用 一 些 局 部 连接 的 网 络 层 
(LeCun, 1986, 1989)。 在 这 种 情况 下 ， 我 们 的 多 层 感知 机 对 应 的 邻接 矩阵 是 相同 的 ， 
但 每 一 个 连接 都 有 它 自己 的 权重 ， 用 一 个 6 维 的 张 量 W 来 表示 。W 的 索引 分 别 是 : 
输出 的 通道 i， 输 出 的 行 j 和 列 k, 输入 的 通道 !， 输 入 的 行 偏 置 m 和 列 偏 置 n。 局 
部 连接 层 的 线性 部 分 可 以 表示 为 



































Zi j,k = > [Veg Li Tig Rl mal: (9.9) 
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图 9.13: 零 填充 对 网 络 大 小 的 影响 。 考 虑 一 个 卷 积 网 络 ， 每 层 有 一 个 宽度 为 六 的 核 。 在 这 个 例子 
中 ,我 们 不 使 用 任何 池 化 ， 所 以 只 有 卷 积 操作 本 身 缩小 网 络 的 大 小 。( 上 ) 在 这 个 卷 积 网 络 中 ,我 
们 不 使 用 任何 隐 含 的 零 填 充 。 这 使 得 表示 在 每 层 缩小 五 个 像素 。 从 十 六 个 像素 的 输入 开始 ,我们 
只 能 有 三 个 卷 积 层 ， 并 且 最 后 一 层 不 能 移动 核 ， 所 以 可 以 说 只 有 两 层 是 真正 的 卷 积 层 。 可 以 通过 
使 用 较 小 的 核 来 减缓 收缩 速率 ， 但 是 较 小 的 核 表示 能 力 不 足 ， 并 且 在 这 种 结构 中 一 些 收缩 是 不 可 
避免 的 。( 下 ) 通过 向 每 层 添加 五 个 隐 含 的 零 ， 我 们 防止 了 表示 随 深 度 收缩 。 这 允许 我 们 设计 一 个 
任意 深 的 卷 积 网 络 。 














































































































这 有 时 也 被 称 为 非 共享 卷 积 ( unshared convolution )， 因 为 它 和 具有 一 个 小 核 的 离 
散 卷 积 运算 很 像 ， 但 并 不 横 跨 位 置 来 共享 参数 。 图 9.14 比 较 了 局 部 连接 、 卷 积 和 全 连 
接 的 区 别 。 

当 我 们 知道 每 一 个 特征 都 是 一 小 块 空间 的 函数 并 且 相 同 的 特征 不 会 出 现在 所 有 
的 空间 上 时 ， 局 部 连接 层 是 很 有 用 的 。 例 如 ， 如 果 我 们 想 要 辨别 一 张 图 片 是 否 是 人 
脸 图 像 时 ， 我 们 只 需要 去 寻找 嘴 是 否 在 图 像 下 半 部 分 即 可 。 

使 用 那些 连接 被 更 进一步 限制 的 卷 积 或 者 局 部 连接 层 也 是 有 用 的 ， 例 如 ， 限 秆 
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图 9.14: 局 部 连接 ， 卷 积 和 全 连接 的 比较 。( 上 ) 每 一 小 片 ( 接受 域 ) 有 两 个 像素 的 局 部 连接 层 。 
条 边 用 唯一 的 字母 标记 ， 来 显示 每 条 边 都 有 自身 的 权重 参数 。( 中 ) 核 宽度 为 两 个 像素 的 卷 积 层 。 
该 模型 与 局 部 连接 层 具 有 完全 相同 的 连接 。 区 别 不 在 于 哪些 单元 相互 交互 ， 而 在 于 如 何 共 享 参数 。 
局 部 连接 层 没 有 参数 共享 。 正 如 用 于 标记 每 条 边 的 字母 重复 出 现 所 指示 的 ， 卷 积 层 在 整个 输入 上 
重复 使 用 相同 的 两 个 权重 。( 下 ) 全 连接 层 类 似 于 局 部 连接 层 ， 它 的 每 条 边 都 有 其 自身 的 参数 (在 
该 图 中 用 字母 明确 标记 的 话 就 太 多 了 )。 然 而 ， 它 不 具有 局 部 连接 层 的 连接 受 限 的 特征 。 
























































































































































每 一 个 输出 的 通道 i 仅仅 是 输入 通道 1 的 一 部 分 的 函数 时 。 实 现 这 种 情况 的 一 种 通 
用 方法 是 使 输出 的 前 m 个 通道 仅仅 连接 到 输入 的 前 ”个 通道 ， 输 出 的 接 下 来 的 m 
个 通道 仅仅 连接 到 输入 的 接 下 来 的 n 个 通道 ， 以 此 类 推 。 图 9.15 给 出 了 一 个 例子 。 
对 少量 通道 间 的 连接 进行 建 模 允 许 网 络 使 用 更 少 的 参数 ， 这 降低 了 存储 的 消耗 以 及 
提高 了 统计 效率 ， 并 且 减 少 了 前 向 和 反问 传播 所 需要 的 计算 量 。 这 些 目 标的 实现 并 
没有 减少 隐藏 单元 的 数目 。 

平 铺 卷 积 (tiled convolution ) (Gregor and LeCun, 2010a; Le et al., 2010) 对 卷 
积 层 和 局 部 连接 层 进 行 了 折衷 。 这 里 并 不 是 对 每 一 个 空间 位 置 的 权重 集合 进行 学 习 ， 
我 们 学 习 一 组 核 使 得 当 我 们 在 空间 移动 时 它们 可 以 循环 利用 。 这 意味 着 在 近邻 的 位 


ww ai bbt.com DUODDOODOD 


dourbz/350DFo 


300 FILE ARAA 


置 上 拥有 不 同 的 过 滤器 ， 就 像 局 部 连接 层 一 样 ， 但 是 对 于 这 些 参数 的 存储 需求 仅仅 
会 增长 常数 倍 ， 这 个 常数 就 是 核 的 集合 的 大 小 ， 而 不 是 整个 输出 的 特征 映射 的 大 小 。 
图 9.16 对 局 部 连接 层 、 平 铺 卷 积 和 标准 卷 积 进行 了 比较 。 

为 了 用 代数 的 方法 定义 平 铺 卷 积 , 令 K 是 一 个 6 维 的 张 量 5， 其 中 的 两 维 对 应 
着 输出 映射 中 的 不 同位 置 。K 在 这 里 并 没有 对 输出 映射 中 的 每 一 个 位 置 使 用 单独 的 
索引 ， 输 出 的 位 置 在 每 个 方向 上 在 t 个 不 同 的 核 组 成 的 集合 中 进行 循环 。 如 果 t 等 
于 输出 的 宽度 ， 这 就 是 局 部 连接 层 了 。 





Zp = > Vij+m-iktn-1Kilm n iikli (9.10) 
l,m,n 
这 里 百 分 号 是 取 模 运算 ， 它 的 性 质 包 括 t%t = 0, (t 十 1)%t = 1 等 等 。 在 每 一 维 上 使 
用 不 同 的 t 可 以 很 容易 对 这 个 方程 进行 扩展 。 

局 部 连接 层 与 平 铺 卷 积 层 都 和 最 大 池 化 有 一 些 有 趣 的 关联 : 这 些 层 的 探测 单元 
都 是 由 不 同 的 过 滤器 驱动 的 。 如 果 这 些 过 滤器 能 够 学 会 探测 相同 隐 含 特征 的 不 同 变 
换 形式 ， 那 么 最 大 池 化 的 单元 对 于 学 得 的 变换 就 具有 不 变性 ( 如 图 9.9 所 示 )。 卷 积 
层 对 于 平移 具有 内 置 的 不 变性 。 

实现 卷 积 网 络 时 ， 通 常 也 需要 除 卷 积 以 外 的 其 他 运算 。 为 了 实现 学 习 ， 必 须 在 
给 定 输出 的 梯度 时 能 够 计算 核 的 梯度 。 在 一 些 简 单 情况 下 ， 这 种 运算 可 以 通过 卷 积 
来 实现 ， 但 在 很 多 我 们 感 兴趣 的 情况 下 ， 包 括 步 幅 大 于 1 的 情况 ， 并 不 具有 这 样 的 
性 质 。 

回忆 一 下 卷 积 是 一 种 线性 运算 ， 所 以 可 以 表示 成 矩阵 乘法 的 形式 (如 果 我 们 首 
先 把 输入 张 量变 形 为 一 个 扁平 的 向 量 )。 其 中 包含 的 矩阵 是 关于 卷 积 核 的 函数 。 这 个 
和 矩阵 是 稀 琉 的 并 且 核 的 每 个 元 素 都 复制 给 矩阵 的 多 个 元 素 。 这 种 观点 能 够 帮助 我 们 
导出 实现 一 个 卷 积 网 络 所 需 的 很 多 其 他 运算 。 

通过 卷 积 定义 的 抢 阵 转 置 的 乘法 就 是 这 样 一 种 运算 。 这 种 运算 用 于 在 卷 积 层 反 
向 传播 误差 的 导数 ,所 以 它 在 训练 多 于 一 个 隐藏 层 的 卷 积 网 络 时 是 必要 的 。 如 果 我 们 
想 要 从 隐藏 层 单元 重 构 可 视 化 单元 时 ， 同 样 的 运算 也 是 需要 的 (Simard et al., 1992). 
重 构 可 视 化 单元 是 本 书 第 三 部 分 的 模型 广泛 用 到 的 一 种 运算 ， 这 些 模型 包括 自 编码 
器 、RBM 和 稀 玻 编码 等 等 。 构 建 这 些 模型 的 卷 积 化 的 版 本 都 要 用 到 转 置 化 卷 积 。 类 
似 核 梯度 运算 ， 这 种 输入 梯度 运算 在 某 些 情况 下 可 以 用 卷 积 来 实现 ， 但 在 一 般 情 况 
下 需要 用 到 第 三 种 运算 来 实现 。 必 须 非 常 小 心地 来 使 这 种 转 置 运算 和 前 向 传播 过 程 


5 译 者 注 : 原文 将 K 误 写 成 了 ko 
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相 协 调 。 转 置 运算 返回 的 输出 的 大 小 取决 于 三 个 方面 : 零 填 充 的 策略 、 前 向 传播 运 
算 的 步 幅 以 及 前 向 传播 的 输出 映射 的 大 小 。 在 一 些 情况 下 ， 不 同 大 小 的 输入 通过 前 
向 传播 过 程 能 够 得 到 相同 大 小 的 输出 映射 ， 所 以 必须 明确 地 告知 转 置 运算 原始 输入 
的 大 小 。 

这 三 种 运算 一 一 卷 积 、 从 输出 到 权重 的 反 向 传播 和 从 输出 到 输入 的 反问 传播 
一 一 对 于 训练 任意 深度 的 前 馈 卷 积 网 络 ， 以 及 训练 带 有 ( 基于 卷 积 的 转 置 的 ) 重 构 
函数 的 卷 积 网 络 ， 这 三 种 运算 都 足以 计算 它们 所 需 的 所 有 梯度 。 对 于 完全 一 般 的 多 
维 、 多 样 例 情况 下 的 公式 ， 完 整 的 推导 可 以 参考 Goodfellow (2010)。 为 了 直观 说 明 
这 些 公式 是 如 何 起 作用 的 ， 我 们 这 里 给 出 一 个 二 维 单 个 样 例 的 版 本 。 

假设 我 们 想 要 训练 这 样 一 个 卷 积 网 络 ， 它 包含 步 幅 为 s 的 步 幅 卷 积 ， 该 卷 积 的 
核 为 K， 作 用 于 多 通道 的 图 像 V, 定义 为 c(K;V,s)， 就 像 式 (9.8) 中 一 样 。 假 设 我 们 
想 要 最 小 化 某 个 损失 函数 J(V,K)。 在 前 向 传播 过 程 中 ,我 们 需要 用 c 本 身 来 输出 
Z， 然 后 Z 传递 到 网 络 的 其 余部 分 并 且 被 用 来 计算 损失 函数 J。 在 反 向 传播 过 程 中 ， 
我 们 会 得 到 一 个 张 量 G 满足 Gi j,k = amI V, K) 

为 了 训练 网 络 ， 我 们 需要 对 核 中 的 权重 求 导 。 为 了 实现 这 个 目的 ， 我 们 可 以 使 
用 一 个 函数 





g(G,V, S)ijkl = J(V, K) = A Gimn Vj (m—1)xs+k,(n—1)xs+l- (9.11) 


m,n 


< 
OK, iN 


如 果 这 一 层 不 是 网 络 的 底层 ,我 们 需要 对 V 求 梯度 来 使 得 误差 进一步 反 向 传播 。 
我 们 可 以 使 用 如 下 的 冰 数 


o 
h(K,G, s); j,k = WH, S (9.12) 
= es b9 X Kaip Cate (9.13) 
lym n,p q 





s.t. s.t. 
(l-1) x s+m=j (n—-1)xs+p=k 


SRP DU Hi 8 A) AENA, ek ERVI A SE Hy A F OE Sa AS BT a 
络 。 一 个 简单 的 例子 是 PCA 算法 ， 将 输入 z 拷贝 到 一 个 近似 的 重 构 值 ">， 通 过 函数 
W' Wa 来 实现 。 使 用 权重 矩阵 转 置 的 乘法 ， 就 像 PCA 算法 这 种 ， 在 一 般 的 自 编码 
器 中 是 很 常见 的 。 为 了 使 这 些 模型 卷 积 化 ， 我 们 可 以 用 函数 h 来 实现 卷 积 运算 的 转 
置 。 假 定 我 们 有 和 Z 相同 形式 的 隐藏 单元 H， 并 且 我 们 定义 一 种 重 构 运算 


R = h(K,H,s). (9.14) 
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为 了 训练 自 编码 涡 ， 我 们 会 得 到 关于 R 的 梯度 ， 表 示 为 一 个 张 量 E。 为 了 训练 
解码 器 ， 我 们 需要 获得 对 于 K 的 梯度 ， 这 通过 g(H,E,s) 来 得 到 。 为 了 训练 编码 器 ， 
我 们 需要 获得 对 于 H 的 梯度 ， 这 通过 c(K,E,s) 来 得 到 。 通 过 用 c 和 对 9 求 微分 
也 是 可 行 的 ， 但 这 些 运算 对 于 任何 标准 神经 网 络 上 的 反 向 传播 算法 来 说 都 是 不 需要 
的 。 

一 般 来 说 ， 在 卷 积 层 从 输入 到 输出 的 变换 中 我 们 不 仅仅 只 用 线性 运算 。 我 们 一 
般 也 会 在 进行 非 线 性 运算 前 ， 对 每 个 输出 加 入 一 些 偏 置 项 。 这 样 就 产生 了 如 何在 偏 
置 项 中 共享 参数 的 问题 。 对 于 局 部 连接 层 ， 很 自然 地 对 每 个 单元 都 给 定 它 特有 的 偏 
置 ， 对 于 平 铺 卷 积 ， 也 很 自然 地 用 与 核 一 样 的 平 铺 模 式 来 共享 参数 。 对 于 卷 积 层 来 
说 ,通常 的 做 法 是 在 输出 的 每 一 个 通道 上 都 设置 一 个 偏 置 ， 这 个 偏 置 在 每 个 卷 积 
射 的 所 有 位 置 上 共享 。 然 而 ， 如果 输入 是 已 知 的 固定 大 小 , 也 可 以 在 输出 映射 的 每 个 
位 置 学 习 一 个 单独 的 俩 置 。 分 离 这 些 偏 置 可 能 会 稍稍 降低 模型 的 统计 效率 ， 但 同时 
也 允许 模型 来 校正 图 像 中 不 同位 置 的 统计 差异 。 例 如 ， 当 使 用 隐 含 的 零 填充 时 ， 图 
像 边 缘 的 探测 单元 接收 到 较 少 的 输入 ， 因 此 需要 较 大 的 侦 置 。 
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Channel coordinates 


一 


Spatial coordinates 














图 9.15: 卷 积 网 络 的 前 两 个 输出 通道 只 和 前 两 个 输入 通道 相连 ， 随 后 的 两 个 输出 


两 个 输入 通道 相连 。 
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图 9.16: 局 部 连接 层 、 平 铺 卷 各 和 标准 卷 积 的 比较 。 当 使 用 相同 大 小 的 核 时 ， 这 三 种 方法 在 单元 之 












































个 连接 都 有 它 自 身 的 权重 。( 中 ) 平 铺 卷 积 有 t 个 不 同 的 核 。 这 里 我 们 说 明 t= 2 的 情况 。 其 















































间 具 有 相同 的 连接 。 此 图 是 对 使 用 两 个 像素 宽 的 核 的 说 明 。 这 三 种 方法 之 间 的 区 别 在 于 它们 如 何 
共享 参数 。( 上 ) 局 部 连接 层 根 本 没有 共享 参数 。 我 们 对 每 个 连接 使 用 唯一 的 字母 标记 ， 来 表明 每 





中 一 个 


核 具 有 标记 为 “a” 和“b” 的 边 ， 而 男 一 个 具有 标记 为 “c” 和 “d” 的 边 。 每 当 我 们 在 输出 中 右 移 一 





















































参数 。 与 局 部 连接 层 不 同 的 是 ,在 我 们 遍历 所 有 可 用 的 t 个 核 之 后 , 我们 循环 回 到 了 第 一 个 















































它 只 有 一 个 核 ， 并 且 被 应 用 到 各 个 地 方 ， 我 们 在 图 中 表示 为 在 各 处 使 用 具有 标记 为 “a” 和 
边 的 核 。 
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个 像素 后 , 我们 使 用 一 个 不 同 的 核 。 这 意味 着 ,与 局 部 连接 层 类 似 , 输出 中 的 相 邻 单元 具有 不 同 的 


核 。 如 


果 两 个 输出 单元 间隔 t 个 步 长 的 倍数 ， 则 它们 共享 参数 。( 下 ) 传统 卷 积 等 效 于 t = 1 的 平 铺 卷 积 。 
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9.6 ”结构 化 输出 


卷 积 神经 网 络 可 以 用 于 输出 高 维 的 结构 化 对 象 ， 而 不 仅仅 是 预测 分 类 任务 的 类 
标签 或 回归 任务 的 实数 值 。 通 常 这 个 对 象 只 是 一 个 张 量 ， 由 标准 卷 积 层 产生 。 例 如 ， 
模型 可 以 产生 张 量 S， 其 中 5; ) 是 网 络 的 输入 像素 (7 k) 属于 类 i 的 概率 。 这 允许 
模型 标记 图 像 中 的 每 个 像素 ， 并 绘制 沿 着 单个 对 象 轮廓 的 精确 掩 模 。 

经 常 出 现 的 一 个 问题 是 输出 平面 可 能 比 输入 平面 要 小 ， 如 图 9.13 所 示 。 用 于 
对 图 像 中 单个 对 象 分 类 的 常用 结构 中 ， 网 络 空间 维 数 的 最 大 减少 来 源 于 使 用 大 步 
幅 的 池 化 层 。 为 了 产生 与 输入 大 小 相似 的 输出 映射 ， 我 们 可 以 避免 把 池 化 放 在 一 起 
(Jain et al., 2007)。 另 一 种 策略 是 单纯 地 产生 一 张 低 分 辩 率 的 标签 网 格 (Pinheiro 
and Collobert, 2014, 2015)。 最 后 ， 原 则 上 可 以 使 用 具有 单位 步 幅 的 池 化 操作 。 

对 图 像 逐 个 像素 标记 的 一 种 策略 是 先 产 生 图 像 标 签 的 原始 猜测 ， 然 后 使 用 相 邻 
像素 之 间 的 交互 来 修正 该 原始 猜测 。 重 复 这 个 修正 步骤 数 次 对 应 于 在 每 一 步 使 用 相 
同 的 卷 积 , 该 卷 积 在 深层 网 络 的 最 后 几 层 之 间 共 享 权重 (Jain etal., 2007)。 这 使 得 在 
层 之 间 共 享 参数 的 连续 的 卷 积 层 所 执行 的 一 系列 运算 ， 形 成 了 一 种 特殊 的 循环 神经 
网 络 (Pinheiro and Collobert, 2014, 2015)。 图 9.17 给 出 了 这 样 一 个 循环 卷 积 网 络 的 
结构 。 

一 旦 对 每 个 像素 都 进行 了 预测 ， 我 们 就 可 以 使 用 各 种 方法 来 进一步 处 理 这 些 
预测 ， 以 便 获得 图 像 在 区 域 上 的 分 割 (Briggman et al., 2009; Turaga et al., 2010; 
Farabet et al., 2013)。 一 般 的 想法 是 假设 大 片 相连 的 像素 倾向 于 对 应 着 相同 的 标签 。 
图 模型 可 以 描述 相 邻 像素 间 的 概率 关系 。 或 者 ， 卷 积 网 络 可 以 被 训练 来 最 大 化 地 近 
似 图 模型 的 训练 目标 (Ning et al., 2005; Thompson et al., 2014)。 
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图 9.17: 用 于 像素 标记 的 循环 卷 积 网 络 的 示例 。 输入 是 图 像 张 量 X， 它 的 轴 对 应 图 像 的 行 、 列 和 和 通 
道 ( 红 , 绿 ， 蓝 )。 目标 是 输出 标签 张 量 六， 它 遵循 每 个 像素 的 标签 的 概率 分 布 。 该 张 量 的 轴 对 应 
图 像 的 行 、 列 和 不 同类 别 。 循 环 网 络 通过 使 用 立 的 先前 估计 作为 创建 新 估计 的 输入 ， 来 适 代 地 改 
善 其 估计 ， 而 不 是 单 次 输出 Ý, 。 每 个 更 新 的 估计 使 用 相同 的 参数 ， 并 且 估 计 可 以 如 我 们 所 愿 地 被 
改善 任意 多 次 。 每 一 步 使 用 的 卷 积 核 张 量 U， 是 用 来 计算 给 定 输 大 图 像 的 隐藏 表示 的 。 核 张 量 V 
用 于 产生 给 定 隐藏 值 时 标签 的 估计 。 除 了 第 一 步 之 外 ， 核 W 都 对 7 进行 卷 积 来 提供 隐藏 层 的 输 
入 。 在 第 一 步 中 ,此 项 由 零 代 替 。 因 为 每 二 步 使 用 相同 的 参数 ， 所 以 这 是 一 个 循环 网 络 的 例子 ， 如 
第 十 章 所 述 。 



































































































































9.7 ”数据 类 型 


卷 积 网 络 使 用 的 数据 通常 包含 多 个 通道 ， 每 个 通道 是 时 间 上 或 空间 中 某 一 点 的 
不 同 观测 量 。 参 考 表 9.1 来 了 解 具有 不 同 维 数 和 通道 数 的 数据 类 型 的 例子 。 

卷 积 网 络 用 于 视频 的 例子 ， 可 以 参考 Chen et al. (2010). 

到 目前 为 止 ， 我 们 仅 讨论 了 训练 和 测试 数据 中 的 每 个 样 例 都 有 相同 的 空间 维度 
的 情况 。 卷 积 网 络 的 一 个 优点 是 它们 还 可 以 处 理 具有 可 变 的 空间 尺度 的 输入 。 这 些 
类 型 的 输入 不 能 用 传统 的 基于 矩阵 乘法 的 神经 网 络 来 表示 。 这 为 卷 积 网 络 的 使 用 提 
供 了 令 人 信服 的 理由 ， 即 使 当 计算 开销 和 过 拟 合 都 不 是 主要 问题 时 。 

例如 ， 考 虑 一 组 图 像 的 集合 ， 其 中 每 个 图 像 具 有 不 同 的 高 度 和 宽度 。 目 前 还 不 
清楚 如 何 用 固定 大 小 的 权重 矩阵 对 这 样 的 输入 进行 建 模 。 卷 积 就 可 以 很 直接 地 应 用 ; 
核 依据 输入 的 大 小 简单 地 被 使 用 不 同 次 ， 并且 卷 积 运算 的 输出 也 相应 地 缩放 。 卷 积 
可 以 被 视 为 矩阵 乘法 ; 相同 的 卷 积 核 为 每 种 大 小 的 输入 引入 了 一 个 不 同 大 小 的 双重 
分 块 循环 矩阵 。 有 了 时， 网 络 的 输出 允许 和 输入 一 样 具 有 可 变 的 大 小 ， 例 如 如 果 我 们 
想 要 为 输入 的 每 个 像素 分 配 一 个 类 标签 。 在 这 种 情况 下 ， 不 需要 进一步 的 设计 工作 。 
在 其 他 情况 下 ， 网 络 必须 产生 一 些 固定 大 小 的 输出 ， 例 如 ， 如 果 我 们 想 要 为 整个 图 
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数据 类 型 


单 通道 


多 通道 





1 维 


音频 波形 : 卷 积 的 轴 对 应 于 时 间 。 
我 们 将 时 间 离 散 化 并 且 在 每 个 时 
间 点 测量 一 次 波形 的 振幅 。 


骨架 动画 (skeleton animation) 数 
据 : 计算 机 泻 染 的 3D 角色 动画 是 
通过 随时 间 调 整 “ 骨 架 ” 的 姿势 
而 生成 的 。 在 每 个 时 间 点 , 角色 的 
姿势 通过 骨架 中 的 每 个 关节 的 角 
度 来 描述 。 我 们 输入 到 卷 积 模型 
的 数据 的 每 个 通道 ， 表 示 一 个 关 
节 关 于 一 个 轴 的 角度 。 





2 维 


已 经 使 用 傅立叶 变换 预 处 理 过 的 
音频 数据 : 我 们 可 以 将 音频 波形 
变换 成 2 维 张 量 ， 不 同 的 行 对 应 
不 同 的 频率 ， 不 同 的 列 对 应 不 同 
的 时 间 点 。 在 时 间 轴 上 使 用 卷 积 
使 模型 等 效 于 在 时 间 上 移动 。 在 
频率 轴 上 使 用 卷 积 使 得 模型 等 效 
于 在 频率 上 移动 ， 这 使 得 在 不 同 
八 度 音阶 中 播放 的 相同 旋律 产生 
相同 的 表示 ， 但 处 于 网 络 输出 中 
的 不 同 高 度 。 





彩色 图 像 数据 : 其 中 一 个 通道 包 
含 红 色 像 素 ， 另 一 个 包含 绿色 像 
A, 最 后 一 个 包含 蓝 色 像素 , 在 图 
像 的 水 平 轴 和 竖 直 轴 上 移动 卷 积 
核 ， 赋 予 了 两 个 方向 上 平移 等 变 


性 。 











3 维 





体积 数据 : 这 种 数据 一 般 来 源 于 
医学 成 像 技术 ， 例 如 CT 扫描 等 。 




















彩色 视频 数据 : 其 中 一 个 轴 对 应 
着 时 间 ， 男 一 个 轴 对 应 着 视频 帧 
的 高 度 ， 最 后 一 个 对 应 着 视频 由 


的 宽度 。 


: 用 于 卷 积 网 络 的 不 同 数据 格式 的 示例 。 
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像 指定 单个 类 标签 。 在 这 种 情况 下 ， 我 们 必须 进行 一 些 额外 的 设计 步骤 ， 例 如 插入 
一 个 池 化 层 ， 池 化 区 域 的 大 小 要 与 输入 的 大 小 成 比例 ， 以 便 保 持 固 定数 量 的 池 化 输 
出 。 这 种 策略 的 一 些 例子 可 以 参考 图 9.11 。 

注意 ,使 用 卷 积 处 理 可 变 尺寸 的 输入 ， 仪 对 输入 是 因为 包含 对 同 种 事物 的 不 同 
量 的 观察 (时 间 上 不 同 长 度 的 记录 ， 空 间 上 不 同 宽度 的 观察 等 ) 而 导致 的 尺寸 变化 这 
种 情况 才 有 意义 。 如 果 输 入 是 因为 它 可 以 选择 性 地 包括 不 同 种 类 的 观察 而 具有 可 变 
尺寸 , 使 用 卷 积 是 不 合理 的 。 例 如 ， 如 果 我 们 正在 处 理 大 学 申请 ， 并 且 我 们 的 特征 
包括 成 绩 等 级 和 标准 化 测试 分 数 ， 但 不 是 每 个 申请 人 都 进行 了 标准 化 测试 ， 则 使 用 
相同 的 权重 来 对 成 绩 特征 和 测试 分 数 特征 进行 卷 积 是 没有 意义 的 。 








9.8 ”高 效 的 卷 积 算法 


现代 卷 积 网 络 的 应 用 通常 需要 包含 超过 百 万 个 单元 的 网 络 。 利 用 并 行 计算 资源 
的 强大 实现 是 很 关键 的 ， 如 第 12.1 节 中 所 描述 的 。 然 而 ， 在 很 多 情况 下 ， 也 可 以 通 
过 选择 适当 的 卷 积 算法 来 加 速 郑 积 。 

卷 积 等 效 于 使 用 傅立叶 变换 将 输入 与 核 都 转换 到 频 域 、 执 行 两 个 信号 的 逐 点 相 
乘 ， 再 使 用 传 立 叶 道 变换 转换 回 时 域 。 对 于 某 些 问 题 的 规模 ， 这 种 算法 可 能 比 离散 
卷 积 的 朴素 实现 更 快 。 

当 一 个 a 维 的 核 可 以 表示 成 d 个 向 量 (每 一 维 一 个 向 量 ) 的 外 积 时 ， 该 核 被 称 
为 可 分 离 的 (separable )。 当 核 可 分 离 时 ， 朴 素 的 卷 积 是 低 效 的 。 它 等 价 于 组 合 d 个 
一 维 卷 积 ， 每 个 卷 积 使 用 这 些 向 量 中 的 一 个 。 组 合 方法 显著 快 于 使 用 它们 的 外 积 3 
执行 一 个 d 维 的 卷 积 。 并 且 核 也 只 要 更 少 的 参数 来 表示 成 向 量 。 如 果 核 在 每 一 维 者 
是 w 个 元 素 宽 ,那么 朴素 的 多 维 卷 积 需要 Ow) 的 运行 时 间 和 参数 存储 空间 ， 而 可 
分 离 卷 积 只 需要 O(w x d) 的 运行 时 间 和 参数 存储 空间 。 当 然 ， 并 不 是 每 个 卷 积 都 可 
以 表示 成 这 种 形式 。 

设计 更 快 的 执行 卷 积 或 近似 卷 积 ， 而 不 损害 模型 准确 性 的 方法 ， 是 一 个 活跃 的 
研究 领域 。 甚 至 仅 提高 前 向 传播 效率 的 技术 也 是 有 用 的 ， 因 为 在 商业 环境 中 ， 通 党 
部 署 网 络 比 训练 网 络 还 要 耗资 源 。 
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9.9 ”随机 或 无 监督 的 特征 





通常 ， 卷 积 网 络 训练 中 最 昂贵 的 部 分 是 学 习 特征 。 输 出 层 的 计算 代价 通常 相对 
不 高 ， 因 为 在 通过 若干 层 池 化 之 后 作为 该 层 输 入 的 特征 的 数量 较 少 。 当 使 用 梯度 下 
降 执行 监督 训练 时 ， 每 步 梯 度 计算 需要 完整 地 运行 整个 网 络 的 前 向 传播 和 反 向 传播 。 
减少 卷 积 网 络 训练 成 本 的 一 种 方式 是 使 用 那些 不 是 由 监督 方式 训练 得 到 的 特征 。 

有 三 种 基本 策略 可 以 不 通过 监督 训练 而 得 到 卷 积 核 。 其 中 一 种 是 简单 地 随机 初 
始 化 它们 。 男 一 种 是 手动 设计 它们 ,例如 设置 每 个 核 在 一 个 特定 的 方向 或 尺度 来 检 
测 边缘 。 最后， 可 以 使 用 无 监督 的 标准 来 学 习 核 。 例 如，Coates et al. (2011) 将 天 均 
值 聚 类 算法 应 用 于 小 图 像 块 ， 然 后 使 用 每 个 学 得 的 中 心 作为 卷 积 核 。 第 三 部 分 描述 
了 更 多 的 无 监督 学 习 方 法 。 使 用 无 监督 的 标准 来 学 习 特 征 ， 使 得 它们 能 够 与 位 于 网 
络 结构 顶层 的 分 类 层 相 互 独立 地 确定 。 然 后 只 需 提取 一 次 全 部 训练 集 的 特征 ， 构 造 
用 于 最 后 一 层 的 新 训练 集 。 假 设 最 后 一 层 类 似 逻 辑 回归 或 者 SVM， 那 么 学 习 最 后 一 
层 通常 是 凸 优化 问题 。 

随机 过 滤器 经 常 在 卷 积 网 络 中 表现 得 出 乎 意料 得 好 Jarrett et al. (2009b); Saxe 
et al. (2011); Pinto et al. (2011); Cox and Pinto (2011). Saxe et al. (2011) WHH, 由 
卷 积 和 随后 的 池 化 组 成 的 层 ， 当 赋予 随机 权重 时 ， 自 然 地 变 得 具有 频率 选择 性 和 平 
移 不 变性 。 他 们 认为 这 提供 了 一 种 廉价 的 方法 来 选择 卷 积 网 络 的 结构 : 首先 通过 仅 
训练 最 后 一 层 来 评估 几 个 卷 积 网 络 结构 的 性 能 ， 然 后 选择 最 好 的 结构 并 使 用 更 昂贵 
的 方法 来 训练 整个 网 络 。 

一 个 中 间 方 法 是 学 习 特 征 ， 但 是 使 用 那 种 不 需要 在 每 个 梯度 计算 步骤 中 都 进行 
完整 的 前 向 和 反问 传播 的 方法 。 与 多 层 感 知 机 一 样 ， 我 们 使 用 贪心 逐 层 预 训练 ， 单 
独 训练 第 一 层 ， 然 后 一 次 性 地 从 第 一 层 提取 所 有 特征 ， 之 后 用 那些 特征 单独 训练 
第 二 层 ， 以 此 类 推 。 第 八 章 描述 了 如 何 实现 监督 的 贪心 逐 层 预 训练 ， 第 三 部 分 将 此 
扩展 到 了 无 监督 的 范畴 。 卷 积 模型 的 贪心 逐 层 预 训 练 的 经 典 模型 是 卷 积 深度 信念 网 
络 (Lee et al., 2009)。 卷 积 网 络 为 我 们 提供 了 相对 于 多 层 感知 机 更 进一步 采用 预 训 
练 策略 的 机 会 。 并 非 一 次 训练 整个 卷 积 层 ， 我 们 可 以 训练 一 小 块 模型 ， 就 像 Coates 
et al. (2011) 使 用 天 均值 做 的 那样 。 然 后 ， 我 们 可 以 用 来 自 这 个 小 块 模型 的 参数 来 定 
义 卷 积 层 的 核 。 这 意味 着 使 用 无 监督 学 习 来 训练 卷 积 网 络 并 且 在 训练 的 过 程 中 完全 
不 使 用 卷 积 是 可 能 的 。 使 用 这 种 方法 , 我们 可 以 训练 非常 大 的 模型 ,并且 只 在 推断 期 
间 产 生 高 计算 成 本 (Ranzato et al., 2007c; Jarrett et al., 2009b; Kavukcuoglu et al., 
2010; Coates et al., 2013)。 这 种 方法 大 约 在 2007 到 2013 年 间 流 行 ， 当 时 标记 的 数 
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据 集 很 小 , 并 且 计算 能 力 有 限 。 如 今 , 大 多 数 卷 积 网 络 以 纯粹 监督 的 方式 训练 , 在 每 
次 训练 迭代 中 使 用 通过 整个 网 络 的 完整 的 前 向 和 反 向 传播 。 

与 其 他 无 监督 预 训练 的 方法 一 样 ， 使 用 这 种 方法 的 一 些 好 处 仍然 难以 说 清 。 无 
监督 预 训练 可 以 提供 一 些 相对 于 监督 训练 的 正则 化 ， 或 者 它 可 以 简单 地 允许 我 们 训 
练 更 大 的 结构 ， 因 为 它 的 学 习 规则 降低 了 计算 成 本 。 





9.10” 卷 积 网 络 的 神经 科学 基础 


卷 积 网 络 也 许 是 生物 学 启发 人 工 智 能 的 最 为 成 功 的 案例 。 虽 然 卷 积 网 络 也 经 过 
许多 其 他 领域 的 指导 ,但 是 神经 网 络 的 一 些 关 键 设计 原则 来 自 于 神经 科学 。 

卷 积 网 络 的 历史 始 于 神经 科学 实验 ， 远 早 于 相关 计算 模型 的 发 展 。 为 了 确定 关 
于 哺乳 动物 视觉 系统 如 何 工作 的 许多 最 基本 的 事实 ， 神 经 生理 学 家 David Hubel 和 
Torsten Wiesel 合作 多 年 (Hubel and Wiesel, 1959, 1962, 1968)。 他 们 的 成 就 最 终 获 
得 了 诺 贝 尔 奖 。 他 们 的 发 现 对 当代 深度 学 习 模型 有 最 大 影响 的 是 基于 记录 猫 的 单个 
神经 元 的 活动 。 他 们 观察 了 猫 的 脑 内 神经 元 如 何 响应 投影 在 猫 前 面 屏 幕 上 精确 位 置 
的 图 像 。 他 们 的 伟大 发 现 是 ， 处 于 视觉 系统 较为 前 面 的 神经 元 对 非常 特定 的 光 模 式 
(例如 精确 定向 的 条 纹 ) 反应 最 强烈 ， 但 对 其 他 模式 几乎 完全 没有 反应 。 

他 们 的 工作 有 助 于 表征 大 脑 功能 的 许多 方面 ， 这 些 方面 超出 了 本 书 的 范围 。 从 
深度 学 习 的 角度 来 看 ， 我 们 可 以 专注 于 简化 的 、 草 图 形式 的 大 脑 功 能 视图 。 

在 这 个 简化 的 视图 中 ， 我 们 关注 被 称 为 V1 的 大 脑 的 一 部 分 ， 也 称 为 初级 视觉 
皮层 (primary visual cortex )。V1 是 大 脑 对 视觉 输入 开始 执行 显著 高 级 处 理 的 第 一 
个 区 域 。 在 该 草图 视图 中 ， 图 像 是 由 光 到 达 了 眼睛 并 刺激 视网膜 (眼睛 后 部 的 光敏 组 
织 ) 形成 的 。 视 网 膜 中 的 神经 元 对 图 像 执 行 一 些 简单 的 预 处 理 ， 但 是 基本 不 改变 它 
被 表示 的 方式 。 然 后 图 像 通过 视神经 和 称 为 外 侧 膝 状 核 的 脑 部 区 域 。 这 些 解 剖 区 域 
的 主要 作用 是 仅仅 将 信号 从 眼睛 传递 到 位 于 头 后 部 的 V1。 

卷 积 网 络 层 被 设计 为 描述 V1 的 三 个 性 质 : 





1. V1 可 以 进行 空间 映射 。 它 实际 上 具有 二 维 结构 来 反映 视网膜 中 的 图 像 结构 。 例 
如 ， 到 达 视 网 膜 下 半 部 的 光 仅 影响 V1 相应 的 一 半 。 卷 积 网 络 通过 用 二 维 映 射 
定义 特征 的 方式 来 描述 该 特性 。 


2. V1 包含 许多 简单 细胞 〈simple cell )。 简 单 细胞 的 活动 在 某 种 程度 上 可 以 概括 
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为 在 一 个 小 的 空间 位 置 感受 野 内 的 图 像 的 线性 函数 。 卷 积 网 络 的 检测 天 单元 被 
设计 为 模拟 简单 细胞 的 这 些 性 质 。 


. V1 还 包括 许多 复杂 细胞 (complex cell )。 这 些 细 胞 响应 类 似 于 由 简单 细胞 检 
测 的 那些 特征 ， 但 是 复杂 细胞 对 于 特征 的 位 置 微小 偏 移 具有 不 变性 。 这 启发 
了 卷 积 网 络 的 池 化 单元 。 复 杂 细 胞 对 于 照明 中 的 一 些 变 化 也 是 不 变 的 ， 不 能 简 
单 地 通过 在 空间 位 置 上 池 化 来 刻画 。 这 些 不 变性 激发 了 卷 积 网 络 中 的 一 些 跨 通 
道 池 化 策略 ， 例 如 maxout 单元 (Goodfellow et al., 2013b)。 


CD 























虽然 我 们 最 了 解 V1， 但 是 一 般 认 为 相同 的 基本 原理 也 适用 于 视觉 系统 的 其 他 区 
域 。 在 我 们 视觉 系统 的 草图 视图 中 ， 当 我 们 逐渐 深入 大 脑 时 ， 遵 循 池 化 的 基本 探测 
策略 被 反复 执行 。 当 我 们 穿 过 大 脑 的 多 个 解剖 层 时 ， 我 们 最 终 找 到 了 响应 一 些 特定 
概念 的 细胞 ， 并 且 这 些 细胞 对 输入 的 很 多 种 变换 都 具有 不 变性 。 这 些 细胞 被 昵称 为 
“祖母 细胞 ”一 一 这 个 想法 是 一 个 人 可 能 有 一 个 神经 元 ， 当 看 到 他 祖母 的 照片 时 该 神 
经 元 被 激活 ， 无 论 祖母 是 出 现在 照片 的 左边 或 右边 ， 无 论 照 片 是 她 的 脸 部 的 特写 镜 
头 还 是 她 的 全 身 照 ， 也 无 论 她 处 在 光亮 还 是 黑暗 中 ， 等 等 。 

这 些 祖母 细胞 已 经 被 证 明确 实 存 在 于 人 脑 中 ， 在 一 个 被 称 为 内 侧 矣 叶 的 区 域 
(Quiroga et al., 2005)。 研 究 人 员 测 试 了 单个 神经 元 是 否 会 响应 名 人 的 照片 。 他 们 发 
现 了 后 来 被 称 为 “Halle Berry 神经 元 ”的 神经 元 : 由 Halle Berry 的 概念 激活 的 单 
个 神经 元 。 当 一 个 人 看 到 Halle Berry 的 照片 ，Halle Berry 的 图 画 ， 甚 至 包含 单词 
“Halle Berry” 的 文本 时 ,这 个 神经 元 会 触发 。 当 然 , 这 与 Halle Berry 本 人 无 关 ; 其 
他 神经 元 会 对 Bill Clinton, Jennifer Aniston 等 的 出 现 做 出 响应 。 

这 些 内 侧 杜 叶 神 经 元 比 现代 卷 积 网 络 更 通用 一 些 ， 这 些 网 络 在 读 取 名 称 时 不 会 
自动 联想 到 识别 人 或 对 象 。 与 卷 积 网 络 的 最 后 一 层 在 特征 上 最 接近 的 类 比 是 称 为 里 
下 皮质 (IT ) 的 脑 区 。 当 查看 一 个 对 象 时 ， 信 息 从 视网膜 经 LGN 流 到 V1， 然 后 到 
V2, V4, 之 后 是 IT。 这 发 生 在 将 见 对 象 的 前 100ms 内 。 如 果 人 允许 一 个 人 继续 观察 对 
象 更 多 的 时 间 ， 那 么 信息 将 开始 回流 ， 因 为 大 脑 使 用 自 上 而 下 的 反馈 来 更 新 较 低级 
脑 区 中 的 激活 。 然 而 ， 如 果 我 们 打 断 人 的 注视 ， 并 且 只 观察 前 100ms 内 的 大 多 数 前 
向 激活 导致 的 放电 率 ， 那 么 IT 被 证 明 与 卷 积 网 络 非常 相似 。 卷 积 网 络 可 以 预测 IT 
放电 率 ， 并 且 在 执行 对 象 识 别 任务 时 与 人 类 〈 时 间 有 限 的 情况 ) 非常 类 似 (DiCarlo, 
2013). 

话 虽 如 此 ， 卷 积 网 络 和 哺乳 动物 的 视觉 系统 之 间 还 是 有 许多 区 别 。 这 些 区 别 有 
一 些 是 计算 神经 科学 家 所 熟知 的 , 但 超出 了 本 书 的 范围 。 还 有 一 些 区 别 尚 未 知晓 ， 
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第 九 章 KAMA 


为 关于 哺乳 动物 视觉 系统 如 何 工 作 的 许多 基本 问题 仍 未 得 到 回答 。 简 要 列表 如 下 : 


。 人 有 眼 大 部 分 是 非常 低 的 分 辨 率 ， 除 了 一 个 被 称 为 中 央 凹 (fovea) 的 小 块 。 中 


央 思 仅 观察 在 手臂 长 度 距 离 内 一 块 拇指 大 小 的 区 域 。 虽 然 我 们 觉得 我 们 可 以 看 
到 高 分 辨 率 的 整个 场景 ， 但 这 是 由 我 们 的 大 脑 的 潜意识 部 分 创建 的 错觉 ， 因 为 
它 颖 合 了 我 们 将 见 的 大 于 个 小 区 域 。 大 多 数 卷 积 网 络 实际 上 接收 大 的 全 分 辨 率 
的 照片 作为 输入 。 人 类 大 脑 控 制 几 次 眼 动 ， 称 为 扫 视 (saccade )， 以 将 见 场景 
中 最 显眼 的 或 任务 相关 的 部 分 。 将 类 似 的 注意 力 机 制 融 入 深度 学 习 模 型 是 一 
个 活跃 的 研究 方向 。 在 深度 学 习 的 背景 下 ， 注 意 力 机 制 对 于 自然 语言 处 理 是 最 
成 功 的 ， 参 考 第 12.4.5.1 节 。 研 究 者 已 经 研发 了 几 种 具有 视觉 机 制 的 视觉 模型 ， 
但 到 目前 为 止 还 没有 成 为 主导 方法 (Larochelle and Hinton, 2010; Denil et al., 
2012). 


人 类 视觉 系统 集成 了 许多 其 他 感觉 ， 例 如 听觉 ， 以 及 像 我 们 的 心情 和 想法 一 样 
的 因素 。 卷 积 网 络 迄今 为 止 纯粹 是 视觉 的 。 


人 类 视觉 系统 不 仅仅 用 于 识别 对 象 。 它 能 够 理解 整个 场景 ， 包 括 许多 对 象 和 对 
象 之 间 的 关系 ， 以 及 处 理 我 们 的 身体 与 世界 交互 所 需 的 丰富 的 三 维 几何 信息 。 
卷 积 网 络 已 经 应 用 于 这 些 问题 中 的 一 些 ， 但 是 这 些 应 用 还 处 于 起 步 阶段 。 


即使 像 V1 这 样 简单 的 大 脑 区 域 也 受到 来 自 较 高 级 别 的 反馈 的 严重 影响 。 反 馈 
已 经 在 神经 网 络 模型 中 被 广泛 地 探索 , 但 还 没有 被 证 明 提 供 了 引 人 注 目的 改进 。 


虽然 前 馈 IT 放电 频率 刻画 了 与 卷 积 网 络 特征 很 多 相同 的 信息 ， 但 是 仍 不 清楚 
中 间 计 算 的 相似 程度 。 大 脑 可 能 使 用 非常 不 同 的 激活 和 池 化 函数 。 单 个 神经 元 
的 激活 可 能 不 能 用 单个 线性 过 滤器 的 响应 来 很 好 地 表征 。 最 近 的 V1 模型 涉及 
对 每 个 神经 元 的 多 个 二 次 过 滤器 (Rust et al., 2005)。 事 实 上 ， 我 们 的 “简单 细 
胞 ”和 “复杂 细胞 ”的 草图 图 片 可 能 并 没有 区 别 ; 简单 细胞 和 复杂 细胞 可 能 是 
相同 种 类 的 细胞 ， 但 是 它们 的 “参数 ”使 得 它们 能 够 实现 从 我 们 所 说 的 “简单 ” 
到 “复杂 ”的 连续 的 行为 。 





























还 值得 一 提 的 是 ， 神 经 科学 很 少 告诉 我 们 该 如 何 训练 卷 积 网 络 。 具 有 跨 多 个 空 


间 位 置 的 参数 共享 的 模型 结构 ， 可 以 追溯 到 早期 关于 视觉 的 联结 主义 模型 (Marr 
and Poggio, 1976)， 但 是 这 些 模型 没有 使 用 现代 的 反 辐 传播 算法 和 梯度 下 降 。 例 如 ， 
(Fukushima, 1980) 结合 了 现代 卷 积 网 络 的 大 多 数 模型 结构 设计 元 素 ， 但 依赖 于 层次 


化 的 


无 监督 聚 类 算法 。 
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Lang and Hinton (1988) 引入 反问 传播 来 训练 时 延 神经 网 络 (time delay neural 
network, TDNN )。 使 用 当代 术语 来 说 ，TDNN 是 用 于 时 间 序 列 的 一 维 卷 积 网 络 。 用 
于 这 些 模型 的 反 向 传播 不 受 任何 神经 科学 观察 的 启发 ， 并 且 被 一 些 人 认为 是 生物 不 
可 信 的 。 在 基于 使 用 反 向 传播 训练 的 TDNN 成 功 之 后 ，LeCun et al. (1989) 通过 将 
相同 的 训练 算法 应 用 于 图 像 的 2 维 卷 积 来 发 展现 代 卷 积 网 络 。 

到 目前 为 止 ， 我 们 已 经 描述 了 简单 细胞 对 于 某 些 特征 是 如 何 呈 现 粗 略 的 线性 和 
选择 性 ， 复 杂 细 胞 是 如 何 更 加 的 非 线性 ， 并 且 对 于 这 些 简单 细胞 特征 的 某 些 变换 具 
有 不 变性 ， 以 及 在 选择 性 和 不 变性 之 间 交 赫 放置 的 层 可 以 产生 对 非常 特定 现象 的 祖 
母 细 胞 。 我 们 还 没有 精确 描述 这 些 单个 细胞 检测 到 了 什么 。 在 深度 非 线性 网 络 中 ， 
可 能 难以 理解 单个 细胞 的 功能 。 第 一 层 中 的 简单 细胞 相对 更 容易 分 析 ， 因 为 它们 的 
响应 由 线性 函数 驱动 。 在 人 工 神经 网 络 中 ， 我 们 可 以 直接 显示 卷 积 核 的 图 像 ， 来 查 
看 卷 积 层 的 相应 通道 是 如 何 响应 的 。 在 生物 神经 网 络 中 ， 我 们 不 能 访问 权重 本 身 。 
相反 ， 我 们 在 神经 元 自身 中 放置 一 个 电极 ， 在 动物 视网膜 前 显示 几 个 白 噪 声 图 像样 
本 ， 并 记录 这 些 样本 中 的 每 一 个 是 如 何 导 致 神经 元 激活 的 。 然 后 ， 我 们 可 以 对 这 些 
响应 拟 合 线性 模型 ， 以 获得 近似 的 神经 元 权重 。 这 种 方法 被 称 为 反 向 相关 (reverse 
correlation ) (Ringach and Shapley, 2004). 

反问 相关 向 我 们 表明 ,大 多 数 的 V1 细胞 具有 由 Gabor 函数 (Gabor function ) 
所 描述 的 权重 。Gabor 也 数 描述 在 图 像 中 的 2 维 点 处 的 权重 。 我 们 可 以 认为 图 像 是 
2 维 坐标 T(z,y) 的 函数 。 类 似 地 ， 我 们 可 以 认为 简单 细胞 是 在 图 像 中 的 一 组 位 置 采 
样 ， 这 组 位 置 由 一 组 x 坐标 X 和 一 组 y 坐标 Y 来 定义 ,并 且 使 用 的 权重 wr, y) 也 
是 位 置 的 函数 。 从 这 个 观点 来 看 ， 简 单 细胞 对 于 图 像 的 响应 由 下 式 给 出 

WD > > Y wlz, yzy). (9.15) 
ZEX YEY 


特别 地 ，w(z,y) 采用 Gabor 函数 的 形式 : 
w(x, Y; a, Be, By, f, 6, £0, Yo, T) = aexp(— bsx? — Buy?) cos( fx + ¢), (9.16) 
其 中 























x’ = (x — zo) cos(T) + (y — yo) sin(T) (9.17) 
以 及 
y = — (x — x9) sin(T) + (y — yo) cos(T). (9.18) 
这 里 a, Br, By, f, 0,20, yT 都 是 控制 Gabor 函数 性 质 的 参数 。 图 9.18 给 出 
T Gabor 函数 在 不 同 参数 集 上 的 一 些 例 子 。 
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图 9.18: 具有 各 种 参数 设置 的 Gabor 函数 。 白 色 表 示 大 的 正 权 重 ， 黑 色 表 示 大 的 负 权 重 ， 背 景 灰 
色 对 应 于 零 权 重 。( 左 ) 控制 坐标 系 的 参数 具有 不 同 值 的 Gabor 函数 ， 这 些 参数 包括 : xo. yo 和 yo 
在 该 网 格 中 的 每 个 Gabor 函数 被 赋予 和 它 在 网 格 中 的 位 置 成 比例 的 zo 和 yo 的 值 ， 并 且 7 被 选 
择 为 使 得 每 个 Gabor 过 滤器 对 从 网 格 中 心 辐射 出 的 方向 非常 敏感 。 对 于 其 他 两 幅 图 ，zo 、yo 和 
y 固定 为 零 。( 中 ) 具有 不 同 高 斯 比例 参数 6。 和 By 的 Gabor 函数 。 当 我 们 从 左 到 右 通 过 网 格 时 ， 
Gabor 函数 被 设置 为 增加 宽度 (减少 Be); 当 我 们 从 上 到 下 通过 网 格 时 ，Gabor 函数 被 设置 为 为 
增加 高 度 (减少 By )。 对 于 其 他 两 幅 图 ，6 值 固定 为 图 像 宽 度 的 1.5 倍 。( 右 ) 具有 不 同 的 正弦 参数 
f A o 的 Gabor 函数 。 当 我 们 从 上 到 下 移动 时 ，f 增加 ; 当 我 们 从 左 到 右 移 动 时 ，9 增加 。 对 于 
其 他 两 幅 图 ，9 固定 为 0，f 固定 为 图 像 宽度 的 5 ffo 





















































参数 zo,yo 和 7 定义 坐标 系 。 我 们 平移 和 旋转 x A 来 得 到 oc! My’. BARH, 
简单 细胞 会 响应 以 点 (xo, yo) 为 中 心 的 图 像 特征 ， 并 且 当 我 们 沿 着 从 水 平方 向 旋转 7 
弧度 的 线 移动 时 ， 简 单 细胞 将 响应 亮度 的 变化 。 

VEN a! 和 w APR, PRP w 会 响应 当 我 们 沿 着 s 移动 时 的 亮度 变化 。 它 有 两 
个 重要 的 因子 : 一 个 是 高 斯 冰 数 ， 另 一 个 是 余弦 函数 。 

高 斯 因子 aexp(—6.2” — byy) 可 以 被 视 为 冰 值 项 ， 用 于 保证 简单 细胞 仅 对 接 
近 z My 都 为 零点 处 的 值 响应 ， 换 名 话说 ， 接 近 细 胞 接受 域 的 中 心 。 尺 度 因 子 a 
调整 简单 细胞 响应 的 总 的 量 级 ， 而 GB, 和 By 控制 接受 域 消退 的 速度 。 

余弦 因子 cos( fa’ + b) 控制 简单 细胞 如 何 响应 延 x' 轴 的 亮度 改变 。 人 参数 上 控制 
RIZR, ob 控制 它 的 相位 偏 移 。 

合 在 一 起 ， 简 单 细 胞 的 这 个 草图 视图 意味 着 ， 简 单 细 胞 对 在 特定 位 置 处 、 特 定 
方向 上 上、 特定 空 间 频 率 的 亮度 进行 啊 应 。 当 图 像 中 的 光波 与 细胞 的 权重 具有 相同 的 


相位 时 ， 简 单 细胞 是 最 兴奋 的 。 这 种 情况 发 生 在 当 图 像 亮 时 ， 它 的 权重 为 正 ， 而 图 
像 暗 时 ， 它 的 权重 为 负 。 当 光波 与 权重 完全 异 相 时 ， 简 单 细胞 被 抑制 一 一 当 图 像 较 
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暗 时 ， 它 的 权重 为 正 ; 较 亮 时 ， 它 的 权重 为 负 。 

复杂 细胞 的 草图 视图 是 它 计 算 包 含 两 个 简单 细胞 响应 的 2 维 向 量 的 [2 范 数 : 
c(T) = V/so(1)? + s1(7)?。 一 个 重要 的 特殊 情况 是 当 s: 和 so 具有 除 $ 以 外 都 相同 的 
参数 , 并 且 o 被 设置 为 使 得 s 与 so 相位 相差 四 分 之 一 周期 时 。 在 这 种 情况 下 ,so 和 
sı 形成 象限 对 ( quadrature pair )。 当 高 斯 重新 加 权 的 图 像 T(zx,vy) exp( 一 Baz2 一 Do2) 
包含 具有 频率 f、 在 方向 7 上、 接近 (xo, yo) 的 高 振幅 正弦 波 时 ， 用 先前 方法 定义 的 
复杂 细胞 会 响应 ， 并且 不 管 该 波 的 相位 偏 移 。 换 句 话 说 ,复杂 细胞 对 于 图 像 在 方向 7 
上 的 微小 变换 或 者 翻转 图 像 (用 白色 代替 黑色 ， 反 之 亦 然 ) 具有 不 变性 。 

神经 科学 和 机 器 学 习 之 间 最 显著 的 对 应 关系 ， 是 从 视觉 上 比较 机 器 学 习 模 型 学 
得 的 特征 与 使 用 V1 得 到 的 特征 。Olshausen and Field (1996) 说 明 ， 一 个 简单 的 无 
监督 学 习 算 法 , 稀 蚊 编码 ,学 习 的 特征 具有 与 简单 细胞 类 似 的 接受 域 。 从 那 时 起 , 我 
们 发 现 ， 当 应 用 于 自然 图 像 时 ， 极 其 多 样 的 统计 学 习 算 法 学 习 类 Gabor 函数 的 特征 。 
这 包括 大 多 数 深 度 学 习 算法 ， 它 们 在 其 第 一 层 中 学 习 这 些 特 征 。 图 9.19 给 出 了 一 些 
例子 。 因 为 如 此 众多 不 同 的 学 习 算 法 学 习 边 缘 检测 器 ， 所 以 很 难 仅 基于 学 习 算 法 学 
得 的 特征 ,来 断定 哪 一 个 特定 的 学 习 算 法 是 “正确 ”的 大 脑 模型 ( 虽然 ， 当 应 用 于 自 
然 图 像 时 ， 如 果 一 个 算法 不 能 学 得 某 种 检测 器 时 ， 它 能 够 作为 一 种 否定 标志 )。 这 些 
特征 是 自然 图 像 的 统计 结构 的 重要 部 分 ， 并 且 可 以 通过 许多 不 同 的 统计 建 模 方法 来 
重新 获得 。 读 者 可 以 参考 (Hyvärinen et al., 2009) 来 获得 自然 图 像 统 计 领 域 的 综述 。 
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图 9.19: 许多 机 器 学 习 算法 在 应 用 于 自然 图 像 时 , 会 学 习 那些 用 来 检测 边缘 或 边缘 的 特定 颜色 的 特 
征 。 这 些 特征 检测 絮 使 人 联想 到 已 知 存在 于 初级 视觉 皮层 中 的 Gabor 函数 。( 左 ) 通过 应 用 于 小 图 
像 块 的 无 监督 学 习 算 法 ( 尖峰 和 平板 稀 琉 编码 ) 学 得 的 权重 。( 右 ) 由 完全 监督 的 卷 积 maxout 网 
络 的 第 一 层 学 得 的 卷 积 核 。 相 邻 的 一 对 过 滤器 驱动 相同 的 maxout 单元 。 
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卷 积 网 络 在 深度 学 习 的 历史 中 发 挥 了 重要 作用 。 它 们 是 将 研究 大 脑 获得 的 深刻 
理解 成 功用 于 机 器 学 习 应 用 的 关键 例子 。 它 们 也 是 第 一 个 表现 良好 的 深度 模型 之 
一 ， 远 远 早 于 任意 深度 模型 被 认为 是 可 行 的 。 卷 积 网 络 也 是 第 一 个 解决 重要 商业 应 
用 的 神经 网 络 ， 并 且 仍 然 是 当今 深度 学 习 商 业 应 用 的 前 沿 。 例 如 , 在 20 世纪 90 年 
代 ，AT&T 的 神经 网 络 研究 小 组 开发 了 一 个 用 于 读 取 支票 的 卷 积 网 络 (LeCun et al., 
2001)。 到 90 FRR, NEC 部 署 的 这 个 系统 已 经 被 用 于 读 取 美 国 10% 以 上 的 文 
票 。 后 来 ， 微 软 部 署 了 若干 个 基于 卷 积 网 络 的 OCR 和 手写 识别 系统 (Simard et al., 
2003)。 关 于 卷 积 网 络 的 这 种 应 用 和 更 现代 应 用 的 更 多 细节 ， 参 考 第 十 二 章 。 读 者 可 
以 参考 (LeCun et al., 2010) 了 解 2010 年 之 前 的 更 为 深入 的 卷 积 网 络 历史 。 

卷 积 网 络 也 被 用 作 在 许多 比赛 中 的 取胜 手段 。 当 前 对 深度 学 习 的 商业 兴趣 的 热 
度 始 于 Krizhevsky et al. (2012a) 赢得 了 ImageNet 对 象 识 别 挑战 ， 但 是 在 那 之 前 ， 
卷 积 网 络 也 已 经 被 用 于 赢得 前 些 年 影响 较 小 的 其 他 机 器 学 习 和 计算 机 视觉 竞赛 了 。 

卷 积 网 络 是 第 一 批 能 使 用 反 回 传播 有 效 训练 的 的 深度 网 络 之 一 。 现 在 仍 不 完全 
清楚 为 什么 卷 积 网 络 在 一 般 的 反 向 传播 网 络 被 认为 已 经 失败 时 反而 成 功 了 。 这 可 能 
可 以 简单 地 归结 为 卷 积 网 络 比 全 连接 网 络 计算 效 率 更 高 ， 因 此 使 用 它们 运行 多 个 实 
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验 并 调整 它们 的 实现 和 超 参数 更 容易 。 更 大 的 网 络 也 似乎 更 容易 训练 。 利 用 现代 硬 
件 ， 大 型 全 连接 的 网 络 在 许多 任务 上 也 表现 得 很 合理 ， 即 使 使 用 过 去 那些 全 连接 网 
络 被 认为 不 能 工作 得 很 好 的 数据 集 和 当时 流行 的 激活 函数 时 ， 现 在 也 能 执行 得 很 好 。 
心理 可 能 神经 网 络 成 功 的 主要 阻碍 ( 实践 者 没有 期 望 神经 网 络 有 效 ， 所 以 他 们 没有 
认真 努力 地 使 用 神经 网 络 )。 无 论 如 何 ， 幸 运 的 是 卷 积 网 络 在 几 十 年 前 就 表现 良好 。 
在 许多 方面 ， 它 们 为 余下 的 深度 学 习 传 递 火炬 ， 并 为 一 般 的 神经 网 络 被 接受 铺 平 了 
道路 。 

卷 积 网 络 提供 了 一 种 方法 来 特 化 神经 网 络 ， 使 其 能 够 处 理 具有 清楚 的 网 格 结构 
拓扑 的 数据 ， 以 及 将 这 样 的 模型 扩展 到 非常 大 的 规模 。 这 种 方法 在 二 维 图 像 拓扑 上 
是 最 成 功 的 。 为 了 处 理 一 维 序列 数据 ， 我 们 接 下 来 转向 神经 网 络 框架 的 另 一 种 强大 
的 特 化 : 循环 神经 网 络 。 
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循环 神经 网 络 (recurrent neural network ) 或 RNN (Rumelhart et al., 1986c) 
是 一 类 用 于 处 理 序 列 数据 的 神经 网 络 。 就 像 卷 积 网 络 是 专门 用 于 处 理 网 格 化 数据 X 
(如 一 个 图 像 ) 的 神经 网 络 ， 循 环 神经 网 络 是 专门 用 于 处 理 序列 zx),.… ,zt) 的 神 
经 网 络 。 正 如 卷 积 网 络 可 以 很 容易 地 扩展 到 具有 很 大 宽度 和 高 度 的 图 像 ， 以 及 处 理 
大 小 可 变 的 图 像 ， 循 环 网 络 可 以 扩展 到 更 长 的 序列 比 不 基于 序列 的 特 化 网 络 长 得 
多 )。 大 多 数 循环 网 络 也 能 处 理 可 变 长 度 的 序列 。 

从 多 层 网 络 出 发 到 循环 网 络 ， 我 们 需要 利用 上 世纪 80 年 代 机 器 学 习 和 统计 模 
型 早期 思想 的 优点 : 在 模型 的 不 同 部 分 共享 参数 。 人 参数 共享 使 得 模型 能 够 扩展 到 不 
同形 式 的 样本 ( 这 里 指 不 同 长 度 的 样本 ) 并 进行 泛 化 。 如 果 我 们 在 每 个 时 间 点 都 有 
一 个 单独 的 参数 ,我 们 不 但 不 能 泛 化 到 训练 时 没有 见 过 序列 长 度 ， 也 不 能 在 时 间 上 
共享 不 同 序列 长 度 和 不 同位 置 的 统计 强度 。 当 信息 的 特定 部 分 会 在 序列 内 多 个 位 置 
出 现时 ， 这 样 的 共享 尤为 重要 。 例 如 ， 考虑 这 两 句 话 :“I went to Nepal in 2009” 和 
“In 2009, I went to Nepal” 如 果 我 们 让 一 个 机 器 学 习 模 型 读 取 这 两 个 句子 ， 并 提取 
叙述 者 去 Nepal 的 年 份 ， 无 论 “2009 年 ”是 作为 句子 的 第 六 个 单词 还 是 第 二 个 单词 出 
Bh, 我们 都 希望 模型 能 认 出 “2009 年 ”作为 相关 资料 片段 。 假 设 我 们 要 训练 一 个 处 
理 固定 长 度 句 子 的 前 馈 网 络 。 传 统 的 全 连接 前 馈 网 络 会 给 每 个 输入 特征 分 配 一 个 单 
独 的 参数 ,所 以 需要 分 别 学 习 句 子 每 个 位 置 的 所 有 语言 规则 。 相 比 之 下 ,循环 神经 网 
络 在 几 个 时 间 步 内 共享 相同 的 权重 ， 不 需要 分 别 学 习 句 子 每 个 位 置 的 所 有 语言 规则 。 

一 个 相关 的 想法 是 在 1 维 时 间 序 列 上 使 用 卷 积 。 这 种 卷 积 方法 是 时 延 神经 网 
络 的 基础 (Lang and Hinton, 1988; Waibel et al., 1989; Lang et al., 1990)。 卷 积 操 作 
人 允许 网 络 跨 时 间 共 享 参数 ， 但 是 浅 层 的 。 卷 积 的 输出 是 一 个 序列 ， 其 中 输出 中 的 每 
一 项 是 相 邻 几 项 输入 的 函数 。 参 数 共 享 的 概念 体现 在 每 个 时 间 步 中 使 用 的 相同 卷 积 
核 。 循 环 神经 网 络 以 不 同 的 方式 共享 参数 。 输 出 的 每 一 项 是 前 一 项 的 函数 。 输 出 的 
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每 一 项 对 先前 的 输出 应 用 相同 的 更 新 规则 而 产生 。 这 种 循环 方式 导致 参数 通过 很 深 
的 计算 图 共享 。 

为 简单 起 见 ， 我 们 说 的 RNN 是 指 在 序列 上 的 操作 ， 并 且 该 序列 在 时 刻 t (从 
1 到了) 包含 向 量 zx。 在 实际 情况 中 ,循环 网 络 通常 在 序列 的 小 批量 上 操作 ， 并 
且 小 批量 的 每 项 具有 不 同 序列 长 度 +。 我 们 省 略 了 小 批量 索引 来 简化 记号 。 此 外 ， 
时 间 步 索引 不 必 是 字面 上 现实 世界 中 流逝 的 时 间 。 有 时 ， 它 仅 表示 序列 中 的 位 置 。 
RNN 也 可 以 应 用 于 跨越 两 个 维度 的 空间 数据 (如 图 像 )。 当 应 用 于 涉及 时 间 的 数据 ， 
并 且 将 整个 序列 提供 给 网 络 之 前 就 能 观察 到 整个 序列 时 ， 该 网 络 可 具有 关于 时 间 向 
后 的 连接 。 

本 章 将 计算 图 的 思想 扩展 到 包括 循环 。 这 些 周期 代表 变量 自身 的 值 在 未 来 某 
一 时 间 步 对 自身 值 的 影响 。 这 样 的 计算 图 允许 我 们 定义 循环 神经 网 络 。 然 后 ， 我 们 
描述 许多 构建 、 训 练 和 使 用 循环 神经 网 络 的 不 同方 式 。 

本 章 将 简要 介绍 循环 神经 网 络 , 为 获取 更 多 详细 信息 , 我 们 建议 读者 参考 Graves 
(2012) 的 著作 。 





10.1 展开 计算 图 


计算 图 是 形式 化 一 组 计算 结构 的 方式 ， 如 那些 涉及 将 输入 和 参数 映射 到 输出 和 
损失 的 计算 。 综 合 的 介绍 请 参考 第 6.5.1 节 。 本 节 ， 我 们 对 RA (unfolding) 递归 或 
循环 计算 得 到 的 重复 结构 进行 解释 ， 这 些 重复 结构 通常 对 应 于 一 个 事件 链 。 展开 
(unfolding ) 这 个 计算 图 将 导致 深度 网 络 结构 中 的 参数 共享 。 

例如 ， 考 虑 动态 系统 的 经 典 形式 : 


s) = f(s); 0), (10.1) 





其 中 st 称 为 系统 的 状态 。 
s 在 时 刻 t 的 定义 需要 参考 时 刻 t 一 1 时 同样 的 定义 ， 因 此 式 (10.1) 是 循环 的 。 
对 有 限时 间 步 +, 7 一 1 次 应 用 这 个 定义 可 以 展开 这 个 图 。 例 如 7 = 3， 我 们 对 

xt (10.1) 展开 ， 可 以 得 到 : 

s® = f(s(2);0) (10.2) 
= f(f(s™; 0); 6). (10.3) 
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以 这 种 方式 重复 应 用 定义 ， 展 开 等 式 ， 就 能 得 到 不 涉及 循环 的 表达 。 现 在 我 们 
可 以 使 用 传统 的 有 向 无 环 计算 图 呈现 这 样 的 表达 。 
xX (10.1) 和 式 (10.3) 的 展开 计算 图 如 图 10.1 所 示 。 


2 N 
‘2 f f PM os 


图 10.1: 将 式 (10.1) 描述 的 经 典 动态 系统 表示 为 展开 的 计算 图 。 每 个 节点 表示 在 茶 个 时 刻 t 的 状 
aS, FFE PR f 将 t 处 的 状态 映射 到 t 十 1 人 处 的 状态 。 所 有 时 间 步 都 使 用 相同 的 参数 ( 用 于 参数 
化 f 的 相同 9 值 )。 























作为 男 一 个 例子 ， 让 我 们 考虑 由 外 部 信号 oO 驱动 的 动态 系统 ， 
s® = f(s", 20;0), (10.4) 


我 们 可 以 看 到 ， 当 前 状态 包含 了 整个 过 去 序列 的 信息 。 

循环 神经 网 络 可 以 通过 许多 不 同 的 方式 建立 。 就 像 几 乎 所 有 函数 都 可 以 被 认为 
是 前 馈 网 络 ， 本 质 上 任何 涉及 循环 的 函数 都 可 以 被 认为 是 一 个 循环 神经 网 络 。 

很 多 循环 神经 网 络 使 用 式 (10.5) 或 类 似 的 公式 定义 隐藏 单元 的 值 。 为 了 表明 状 
态 是 网 络 的 隐藏 单元 ， 我 们 使 用 变量 h 代表 状态 重 写 式 (10.4) : 





h® = MD 2; 6), (10.5) 


如 图 10.2 所 示 ， 典 型 RNN 会 增加 额外 的 架构 特性 ， 如 读 取 状态 信息 h 进行 预测 的 


输出 层 。 
ee pa 
\ / \ / 
— ~-- f f f ~-7 
f Unfold 


图 10.2: 没有 输出 的 循环 网 络 。 此 循环 网 络 只 处 理 来 自 输入 z 的 信息 ， 将 其 合并 到 经 过 时 间 向 前 
传播 的 状态 ho (A) 回路 原理 图 。 黑 色 方 块 表示 单个 时 间 步 的 延迟 。( 去 ) 同一 网 络 被 视 为 展开 的 
计算 图 ， 其 中 每 个 节点 现在 与 一 个 特定 的 时 间 实 例 相 关联 。 
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当 训 练 循环 网 络 根据 过 去 预测 未 来 时 ， 网 络 通常 要 学 会 使 用 内 9 作为 过 去 序列 
( 直到 t) 与 任务 相关 方面 的 有 损 摘 要 。 此 摘要 一 般 而 言 一 定 是 有 损 的 ， 因 为 其 映射 
任意 长 度 的 序列 (1P, 69, t-23, ;29, eo) 到 一 固定 长 度 的 向 量 h 中 。 根 据 不 
同 的 训练 准则 ， 摘 要 可 能 选择 性 地 精确 保留 过 去 序列 的 某 些 方面 。 例 如 ， 如 果 在 统 
计 语 言 建 模 中 使 用 的 RNN， 通 常 给 定 前 一 个 词 预测 下 一 个 词 ， 可 能 没有 必要 存储 时 
刻 t 前 输入 序列 中 的 所 有 信息 ; 而 仅仅 存储 足够 预测 句子 其 余部 分 的 信息 。 最 苛刻 
的 情况 是 我 们 要 求 WO 足够 丰富 ， 并 能 大 致 恢复 输入 序列 ， 如 自 编码 器 框架 ( 第 十 
四 章 )。 

式 (10.5) 可 以 用 两 种 不 同 的 方式 绘制 。 一 种 方法 是 为 可 能 在 模型 的 物理 实现 中 
存在 的 部 分 赋予 一 个 节点 ， 如 生物 神经 网 络 。 在 这 个 观点 下 ， 网 络 定义 了 实时 操作 
的 回路 ， 如 图 10.2 的 左 侧 ， 其 当前 状态 可 以 影响 其 未 来 的 状态 。 在 本 章 中 , 我 们 使 用 
回路 图 的 黑色 方块 表明 在 时 刻 t 的 状态 到 时 刻 t1 的 状态 单个 时 刻 延 迟 中 的 相互 作 
Ho Fahl RNN 的 方法 是 展开 的 计算 图 , 其 中 每 一 个 组 件 由 许多 不 同 的 变量 表 
































示 ， 每 个 时 间 步 一 个 变量 ， 表 示 在 该 时 间 点 组 件 的 状态 。 每 个 时 间 步 的 每 个 变量 绘 
制 为 计算 图 的 一 个 独立 节点 ， 如 图 10.2 的 右 侧 。 我 们 所 说 的 展开 是 将 左 图 中 的 回路 


上 映 射 为 右 图 中 包含 重复 组 件 的 计算 图 的 操作 。 目 前 ， 展 开 图 的 大 小 取决 于 序列 长 度 。 
我 们 可 以 用 一 个 函数 gO 代表 经 t 步 展 开 后 的 循环 : 


pn = g(a, gt} gt?) oe BO), x) (10.6) 
= f(ATY, 2: 8). (10.7) 


函数 gO 将 全 部 的 过 去 序列 (LO, al), wl?) wl), wD) 作为 输入 来 生成 当前 状 
态 , 但 是 展开 的 循环 架构 允许 我 们 将 g 分 解 为 函数 f 的 重复 应 用 。 因 此 ， 展 开 过 
程 引 入 两 个 主要 优点 : 


1. 无 论 序 列 的 长 度 ， 学 成 的 模型 始终 具有 相同 的 输入 大 小 ， 因 为 它 指定 的 是 从 一 
种 状态 到 男 一 种 状态 的 转移 ， 而 不 是 在 可 变 长 度 的 历史 状态 上 操作 。 


2. 我 们 可 以 在 每 个 时 间 步 使 用 相同 参数 的 相同 转移 函数 f。 
这 两 个 因素 使 得 学 习 在 所 有 时 间 步 和 所 有 序列 长 度 上 操作 单一 的 模型 是 可 能 的 ， 
而 不 需要 在 所 有 可 能 时 间 步 学 习 独立 的 模型 g%。 学 习 单 一 的 共享 模型 允许 泛 化 到 


没有 见 过 的 序列 长 度 (没有 出 现在 训练 集中 )， 并 且 估 计 模 型 所 需 的 训练 样本 远 远 少 
于 不 带 参数 共享 的 模型 。 
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无 论 是 循环 图 和 展开 图 都 有 其 用 途 。 循 环 图 简洁 。 展 开 图 能 够 明确 描述 其 中 的 
计算 流程 。 展 开 图 还 通过 显 式 的 信息 流动 路 径 帮 助 说 明 信 息 在 时 间 上 向 前 (计算 输 
出 和 损失 ) 和 向 后 ( 计算 梯度 ) 的 思想 。 








10.2 ”循环 神经 网 络 


基于 第 10.1 节 中 的 图 展开 和 参数 共享 的 思想 ， 我 们 可 以 设计 各 种 循环 神经 网 络 。 


oF 


Unfold 





图 10.3: 计算 循环 网 络 (将 z 值 的 输入 序列 映射 到 输出 值 o 的 对 应 序列 ) 训练 损失 的 计算 图 。 损 失 
L 衡量 每 个 o 与 相应 的 训练 目标 y 的 距离 。 当 使 用 softmax 输出 时 ， 我 们 假设 o 是 未 归 一 化 的 
对 数 概率 。 损 失 L 内 部 计算 y = softmax(o)， 并 将 其 与 目标 y 比较 。RNN 输 入 到 隐藏 的 连接 由 
权重 矩阵 加 参数 化 ， 隐 藏 到 隐藏 的 循环 连接 由 权重 矩阵 W 参数 化 以 及 隐藏 到 输出 的 连接 由 权重 
和 矩阵 V SUL. K (10.8) 定义 了 该 模型 中 的 前 向 传播 。( 左 ) 使 用 循环 连接 绘制 的 RNN 和 它 的 损 
Ro (E) 同一 网 络 被 视 为 展开 的 计算 图 ， 其 中 每 个 节点 现在 与 一 个 特定 的 时 间 实 例 相 关联 。 







































































循环 神经 网 络 中 一 些 重要 的 设计 模式 包括 以 下 几 种 : 


1. 每 个 时 间 步 都 有 输出 ， 并 且 隐 藏 单元 之 间 有 循环 连接 的 循环 网 络 ， 如 图 10.3 所 
示 。 
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2. 每 个 时 间 步 都 产生 一 个 输出 ， 只 有 当前 时 刻 的 输出 到 下 个 时 刻 的 隐藏 单元 之 间 
有 循环 连接 的 循环 网 络 ， 如 图 10.4 所 示 。 


3. 隐藏 单元 之 间 存 在 循环 连接 ， 但 读 取 整个 序列 后 产生 单个 输出 的 循环 网 络 ， 如 
图 10.5 所 示 。 


图 10.3 是 非常 具有 代表 性 的 例子 ， 我 们 将 会 在 本 章 大 部 分 涉及 这 个 例子 。 














图 10.4: 此 类 RNN 的 唯一 循环 是 从 输出 到 隐藏 层 的 反馈 连接 。 在 每 个 时 间 步 上， 输入 为 wt， 隐藏 
层 激活 为 hÀ, 输出 为 oH, Aimy y®, WRA LO. (A) 回路 原理 图 。( 右 ) 展开 的 计算 图 。 这样 
的 RNN 没有 图 10.3 表 示 的 RNN 那样 强大 ( 只 能 表示 更 小 的 函数 集合 )。 图 10.3 中 的 RNN 可 以 
选择 将 其 想 要 的 关于 过 去 的 任何 信息 放 入 隐藏 表示 h 中 并 且 将 h 传播 到 未 来 。 该 图 中 的 RNN 被 
训练 为 将 特定 输出 值 放 入 o 中 ,并且 o 是 允许 传播 到 未 来 的 唯一 信息 。 此 处 没有 从 h 前 向 传播 的 
直接 连接 。 之 前 的 h 仪 通过 产生 的 预测 间接 地 连接 到 当前 。o 通常 缺乏 过 去 的 重要 信息 ， 除 非 它 
非常 高 维 且 内 容 丰 富 。 这 使 得 该 图 中 的 RNN 不 那么 强大 , 但 是 它 更 容易 训练 ， 因 为 每 个 时 间 步 可 
以 与 其 他 时 间 步 分 离 训 练 ， 允 许 训 练 期 间 更 多 的 并 行 化 ， 如 第 10.2.1 节 所 述 。 











































































































任何 图 灵 可 计算 的 也 数 都 可 以 通过 这 样 一 个 有 限 维 的 循环 网 络 计 算 ， 在 这 
个 意义 上 图 10.3 和 式 (10.8) 的 循环 神经 网 络 是 万 能 的 。RNN 经 过 若干 时 间 步 后 读 
取 输 出 ， 这 与 由 图 灵机 所 用 的 时 间 步 是 渐 近 线性 的 ， 与 输入 长 度 也 是 渐 近 线性 
的 (Siegelmann and Sontag, 1991; Siegelmann, 1995; Siegelmann and Sontag, 1995; 
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图 10.5: 关于 时 间 展 开 的 循环 神经 网 络 ， 在 序列 结束 时 具有 单个 输出 。 这 样 的 网 络 可 以 用 于 概括 序 
列 并 产生 用 于 进一步 处 理 的 固定 大 小 的 表示 。 在 结束 处 可 能 存在 目标 ( 如 此 处 所 示 )， 或 者 通过 更 
下 游 模 块 的 反 向 传播 来 获得 输出 oO) 上 的 梯度 。 






























































Hyotyniemi, 1996)。 由 图 灵机 计算 的 函数 是 离散 的 ， 所 以 这 些 结果 都 是 函数 的 具体 
实现 ， 而 不 是 近似 。RNN 作为 图 灵机 使 用 时 ， 需 要 一 个 二 进 制 序列 作为 输入 ， 其 输 
出 必须 离散 化 以 提供 二 进 制 输出 。 利 用 单个 有 限 大 小 的 特定 RNN 计算 在 此 设置 下 
的 所 有 函数 是 可 能 的 〈 Siegelmann and Sontag (1995) 用 了 886 个 单元 )。 图 灵机 的 
“输入 ”是 要 计算 函数 的 详细 说 明 (specification)， 所 以 模拟 此 图 灵机 的 相同 网 络 足 
以 应 付 所 有 问题 。 用 于 证 明 的 理论 RNN 可 以 通过 激活 和 权重 ( 由 无 限 精 度 的 有 理 
数 表示 ) 来 模拟 无 限 堆 栈 。 

现在 我 们 研究 图 10.3 中 RNN 的 前 向 传播 公式 。 这 个 图 没有 指定 隐藏 单元 的 激 
活 函 数 。 我 们 假设 使 用 双 曲 正切 激活 函数 。 此 外 ， 图 中 没有 明确 指定 何 种 形式 的 输 
出 和 损失 函数 。 我 们 假定 输出 是 离散 的 ， 如 用 于 预测 词 或 字符 的 RNN。 表 示 离 散 变 
量 的 常规 方式 是 把 输出 o 作为 每 个 离散 变量 可 能 值 的 非 标 准 化 对 数 概 率 。 然 后 ， 我 
们 可 以 应 用 softmax 函数 后 续 处 理 后 ， 获 得 标准 化 后 概率 的 输出 向 量 Yo RNN 从 特 
定 的 初始 状态 hO 开始 前 向 传播 。 从 t+ = 1 到 上 = r 的 每 个 时 间 步 ， 我 们 应 用 以 下 
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更 新 方程 : 
a® = b+ Wh) + Ur, (10.8) 
h = tanh(a”), (10.9) 
o® = c+ VR, (10.10) 
y = softmax(o”), (10.11) 


其 中 的 参数 的 偏 置 向 量 b 和 c 连同 权重 和 矩阵 U、V 和 环 ， 分 别 对 应 于 输入 到 隐藏 、 
隐藏 到 输出 和 隐藏 到 隐藏 的 连接 。 这 个 循环 网 络 将 一 个 输入 序列 映射 到 相同 长 度 的 
输出 序列 。 与 xz 序列 配对 的 y 的 总 损失 就 是 所 有 时 间 步 的 损失 之 和 。 例 如 ， 工 (00 为 
给 定 的 zz 后 yO 的 负 对 数 似 然 ， 则 





L({a™,..., 2}, {y®,... yY} (10.12) 

= 1 (10.13) 
t 

= — $ log Pu Gees) (2, ..., 2 (10.14) 
t 


其 中 poaa(y | {a,..., 0 }) Fp BEE BH Te Gg PAF yO 的 项 。 
关于 各 个 参数 计算 这 个 损失 函数 的 梯度 是 计算 成 本 很 高 的 操作 。 梯 度 计算 涉及 执行 
一 次 前 向 传播 〈 如 在 图 10.3 展开 图 中 从 左 到 右 的 传播 )， 接 着 是 由 右 到 左 的 反 向 传 
播 。 运 行 时 间 是 O(7)， 并 且 不 能 通过 并 行 化 来 降低 ， 因 为 前 向 传播 图 是 固有 循序 的 ; 
每 个 时 间 步 只 能 一 前 一 后 地 计算 。 前 向 传播 中 的 各 个 状态 必须 保存 ， 直 到 它们 反问 
传播 中 被 再 次 使 用 ， 因 此 内 存 代价 也 是 O(7)。 应 用 于 展开 图 且 代 价 为 Olr) 的 反 向 
传播 算法 称 为 通过 时 间 反 向 传播 ( back-propagation through time, BPTT )， 将 在 
第 10.2.2 节 进 一 步 讨论 。 因 此 隐藏 单元 之 间 存 在 循环 的 网 络 非常 强大 但 训练 代价 也 
很 大 。 我 们 是 否 有 其 他 选择 呢 ? 





10.2.1 ”导师 驱动 过 程 和 输出 循环 网 络 


仅 在 一 个 时 间 步 的 输出 和 下 一 个 时 间 步 的 隐藏 单元 间 存 在 循环 连接 的 网 络 〈 示 
于 图 10.4 ) 确实 没有 那么 强大 〈 因为 缺乏 隐藏 到 隐藏 的 循环 连接 ) 例如 ， 它 不 能 模 
拟 通用 图 灵机 。 因 为 这 个 网 络 缺 少 隐藏 到 隐藏 的 循环 ， 它 要 求 输出 单元 捕捉 用 于 预 
测 未 来 的 关于 过 去 的 所 有 信息 。 因 为 输出 单元 明确 地 训练 成 匹配 训练 集 的 目标 ， 它 
们 不 太 能 捕获 关于 过 去 输入 历史 的 必要 信息 ， 除 非 用 户 知道 如 何 描述 系统 的 全 部 状 
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态 ， 并 将 它 作为 训练 目标 的 一 部 分 。 消 除 隐藏 到 隐藏 循环 的 优点 在 于 ， 任 何 基于 比 
较 时 刻 t 的 预测 和 时 刻 t 的 训练 目标 的 损失 函数 中 的 所 有 时 间 步 都 解 看 了 。 因 此 训 
练 可 以 并 行 化 ， 即 在 各 时 刻 t 分 别 计算 梯度 。 因 为 训练 集 提供 输出 的 理想 值 ， 所 以 
没有 必要 先 计 算 前 一 时 刻 的 输出 。 

由 输出 反馈 到 模型 而 产生 循环 连接 的 模型 可 用 导师 驱动 过 程 (teacher forcing ) 
进行 训练 。 训 练 模型 时 ， 导 师 驱动 过 程 不 再 使 用 最 大 似 然 准 则 ， 而 在 时 刻 t 十 1 接收 
真实 值 y 作为 输入 。 我 们 可 以 通过 检查 两 个 时 间 步 的 序列 得 知 这 一 点 。 条 件 最 大 
似 然 准则 是 








log p(y, y” | &, 2?) (10.15) 
= log p(y™ | ya, a) + logp(y™ | x, 2). (10.16) 


在 这 个 例子 中 ， 同 时 给 定 迄 今 为 止 的 z 序列 和 来 自 训练 集 的 前 一 y 值 ， 我 们 可 
以 看 到 在 时 刻 t= 2 时 ， 模 型 被 训练 为 最 大 化 yO 的 条 件 概率 。 因 此 最 大 似 然 在 训 
练 时 指定 正确 反馈 ， 而 不 是 将 自己 的 输出 反馈 到 模型 。 如 图 10.6 所 示 。 

我 们 使 用 导师 驱动 过 程 的 最 初 动机 是 为 了 在 缺乏 隐藏 到 隐藏 连接 的 模型 中 避 
免 通 过 时 间 反 向 传播 。 只 要 模型 一 个 时 间 步 的 输出 与 下 一 时 间 步 计算 的 值 存在 连接 ， 
导师 驱动 过 程 仍 然 可 以 应 用 到 这 些 存在 隐藏 到 隐藏 连接 的 模型 。 然 而 ， 只 要 隐藏 单 
元 成 为 较 早 时 间 步 的 函数 ，BPTT 算法 是 必要 的 。 因 此 训练 某 些 模型 时 要 同时 使 
用 导师 驱动 过 程 和 BPTT。 

如 果 之 后 网 络 在 开 环 (open-loop) 模式 下 使 用 ， 即 网 络 输 出 (或 输出 分 布 的 样 
本 ) 反馈 作为 输入 ， 那 么 完全 使 用 导师 驱动 过 程 进行 训练 的 缺点 就 会 出 现 。 在 这 种 
情况 下 ， 训 练 期 间 该 网 络 看 到 的 输入 与 测试 时 看 到 的 会 有 很 大 的 不 同 。 减轻 此 问题 
的 一 种 方法 是 同时 使 用 导师 驱动 过 程 和 自由 运行 的 输入 进行 训练 ， 例 如 在 展开 循环 
的 输出 到 输入 路 径 上 预测 几 个 步骤 的 正确 目标 值 。 通 过 这 种 方式 ， 网 络 可 以 学 会 考 
虑 在 训练 时 没有 接触 到 的 输入 条 件 〈 如 自由 运行 模式 下 ， 自 身 生 成 自身 )， 以 及 将 状 
态 映 射 回 使 网 络 几 步 之 后 生成 正确 输出 的 状态 。 另 外 一 种 方式 (Bengio et al., 2015b) 
是 通过 随意 选择 生成 值 或 真实 的 数据 值 作为 输入 以 减 小 训练 时 和 测试 时 看 到 的 输入 
之 间 的 差别 。 这 种 方法 利用 了 课程 学 习 策 略 ， 逐 步 使 用 更 多 生成 值 作为 输入 。 
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图 10.6: 导师 驱动 过 程 的 示意 图 。 导 师 驱 动 过 程 是 一 种 训练 技术 , 适用 于 输出 与 下 一 时 间 步 的 隐藏 
状态 存在 连接 的 RNN. (A) 训练 时 ,我 们 将 训练 集中 正确 的 输出 yO 反馈 到 ACY. (a) 当 模型 
部 署 后 ， 真 正 的 输出 通常 是 未 知 的 。 在 这 种 情况 下 ， 我 们 用 模型 的 输出 ot 近似 正确 的 输出 yO , 
反馈 回 模型 。 







































































10.2.2 ”计算 循环 神经 网 络 的 梯度 


计算 循环 神经 网 络 的 梯度 是 容易 的 。 我 们 可 以 简单 地 将 第 6.5.6 节 中 的 推广 反 向 
传播 算法 应 用 于 展开 的 计算 图 ， 而 不 需要 特殊 化 的 算法 。 由 反 向 传播 计算 得 到 的 梯 
度 ， 并 结合 任何 通用 的 基于 梯度 的 技术 就 可 以 训练 RNN。 

为 了 获得 BPTT 算法 行为 的 一 些 直观 理解 , 我 们 举例 说 明 如 何 通过 BPTT 计算 
上 述 RNN 公 式 〈 式 (10.8) 和 式 (10.12) ) 的 梯度 。 计 算 图 的 节点 包括 参数 U, V, W, b 
和 ec， 以 及 以 二 为 索引 的 节点 序列 sO, hO, of 和 LW。 对 于 每 一 个 节点 N， 我 们 
需要 基于 N 后 面 的 节点 的 梯度 , 递归 地 计算 梯度 VnL。 我 们 从 紧 接 着 最 终 损失 的 节 
点 开始 递归 : 

aL 
ara ~ 


在 这 个 导数 中 ， 我 们 假设 输出 oO 作为 softmax 函数 的 参数 ， 我 们 可 以 从 softmax 


(10.17) 
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函数 可 以 获得 关于 输出 概率 的 向 量 Yo 我 们 也 假设 损失 是 迄今 为 止 给 定 了 输入 后 的 
真实 目标 y” 的 负 对 数 似 然 。 对 于 所 有 i,t， 关 于 时 间 步 t 输出 的 梯度 Vow DL 如 下 : 





OL OL OL r 


(Vow L): = ao 一 ƏLƏ do Yi Fi,yO> 


(10.18) 


我 们 从 序列 的 末尾 开始 ， 反 向 进行 计算 。 在 最 后 的 时 间 步 7, hO 只 有 0M 作为 后 续 
节点 ， 因 此 这 个 梯度 很 简单 : 


Vio L= VV gal. (10.19) 


然后 ， 我 们 可 以 从 时 刻 上 = 一 1 到 += 1 SER, 通过 时 间 反 向 传播 梯度 ， 注 意 
hO <7) 同时 具有 o 和 AO 两 个 后 续 节点 。 因 此 ， 它 的 梯度 由 下 式 计算 


Ih NT do NT 
VoL = PT) (Vren L) + Go (Vow L) (10.20) 
= W7 (Vern Ldiag(1 = 0 EF (gh). (10.21) 





其 中 diag(1—(A)?) 表示 包含 元 素 1—(hP)? 的 对 角 矩 阵 。 这 是 关于 时 刻 t+1 
与 隐藏 单元 ?关联 的 双 曲 正切 的 Jacobian。 

旦 获得 了 计算 图 内 部 节点 的 梯度 ， 我 们 就 可 以 得 到 关于 参数 节点 的 梯度 。 因 
为 参数 在 许多 时 间 步 共享 ， 我 们 必须 在 表示 这 些 变量 的 微 积分 操作 时 姬 慎 对 待 。 我 
们 希望 实现 的 等 式 使 用 第 6.5.6 节 中 的 bprop 方法 计算 计算 图 中 单一 边 对 梯度 的 贡 
献 。 然 而 微 积分 中 的 Vwf 算 子 , 计算 三 对 于 f 的 贡献 时 将 计算 图 中 的 所 有 边 都 考 
虑 进去 了 。 为 了 消除 这 种 歧义 ， 我 们 定义 只 在 t 时 刻 使 用 的 虚拟 变量 WO 作为 W 
的 副本 。 然 后 ， 我 们 可 以 使 用 Vwo 表示 权重 在 时 间 步 t 对 梯度 的 贡献 。 
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使 用 这 个 表示 ， 关 于 剩 下 参数 的 梯度 可 以 由 下 式 给 出 : 











OT 
V.L = 2 (2 ) En e D Vw L, (10.22) 
ant . 
Vel = 2 (ga) Viob = > degll - (nO) Vro L, (10.23) 
VyL = 2 2 (Sn) vot” = (VoL a, (10.24) 
aL 7 

Mie a oN (10.25) 

3 -nal = ©) Wao Dn a (10.26) 

Vole > ae Pw (10.27) 

= -nel = Vro ta”, (10.28) 

因为 计算 图 中 定义 的 损失 的 任何 参数 都 不 是 训练 数据 oc 的 父 节 点 ， 所 以 我 们 不 需 


要 计算 关于 它 的 梯度 。 


10.2.3 ”作为 有 向 图 模型 的 循环 网 络 


目前 为 止 ， 我 们 接触 的 循环 网 络 例子 中 损失 LO 是 训练 目标 yO 和 输出 o 之 
lia] KS SOB 与 前 馈 网 络 类 似 ， 原 则 上 循环 网 络 几 乎 可 以 使 用 任何 损失 。 但 必须 根 
据 任 务 来 选择 损失 。 如 前 馈 网 络 ， 我 们 通常 希望 将 RNN 的 输出 解释 为 一 个 概率 分 
H, 并 且 我 们 通常 使 用 与 分 布 相关 联 的 交叉 炉 来 定义 损失 。 均 方 误 差 是 与 单位 高 斯 
分 布 的 输出 相关 联 的 交叉 信 损 失 ， 例 如 前 馈 网 络 中 所 使 用 的 。 

当 我 们 使 用 一 个 预测 性 对 数 似 然 的 训练 目标 ， 如 式 (10.12) ， 我 们 将 RNN 训练 
为 能 够 根据 之 前 的 输入 估计 下 一 个 序列 元 素 yO 的 条 件 分 布 。 这 可 能 意味 着 ,我 们 
最 大 化 对 数 似 然 














| (10.29) 
或 者 ， 如 果 模 型 包括 来 自 一 个 时 间 步 的 输出 到 下 一 个 时 间 步 的 连接 ， 
log p(y | £®,..., 2) y®,..., yD). (10.30) 
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将 整个 序列 y 的 联合 分 布 分 解 为 一 系列 单 步 的 概率 预测 是 捕获 关于 整个 序列 完整 
联合 分 布 的 一 种 方法 。 当 我 们 不 把 过 去 的 y 值 反馈 给 下 一 步 作 为 预测 的 条 件 时 ， 那 
么 有 向 图 模型 不 包含 任何 从 过 去 yO 到 当前 yO 的 边 。 在 这 种 情况 下 ， 输 出 y 与 给 
定 的 x 序列 是 条 件 独立 的 。 当 我 们 反馈 真实 的 y 值 ( 不 是 它们 的 预测 值 ， 而 是 真正 
观测 到 或 生成 的 值 ) 给 网 络 时 ， 那 么 有 向 图 模型 包含 所 有 从 过 去 yO 到 当前 yO 的 


边 。 





图 10.7: 序列 yD) yy... 的 全 连接 图 模型 。 给 定 先前 的 值 ， 每 个 过 去 的 观察 值 yO 可 
以 影响 一 些 y(t > i) 的 条 件 分 布 。 当 序列 中 每 个 元 素 的 输入 和 参数 的 数目 越 来 越 多 ， 根 据 此 图 
直接 参数 化 图 模型 ( 如 式 (10.6) 中 ) 可 能 是 非常 低 效 的 。RNN 可 以 通过 高 效 的 参数 化 获得 相同 的 
全 连接 ， 如 图 10.8 所 示 。 


























举 一 个 简单 的 例子 ， 让 我 们 考虑 对 标量 随机 变量 序列 Y = {y 中 ,...,y 中 } 建 
模 的 RNN， 也 没有 额外 的 输入 x。 在 时 间 步 t 的 输入 仅仅 是 时 间 步 + 一 1 的 输出 。 
该 RNN 定义 了 关于 y 变量 的 有 向 图 模型 。 我 们 使 用 链 式 法 则 ( 用 于 条 件 概率 的 
at (3.6) ) 参数 化 这 些 观察 值 的 联合 分 布 : 


P(Y) = P(y®,... y0) = [| 26" [yer ye), (10.31) 


t=1 





Hp t= 工时 竖 杠 右 侧 显然 为 空 。 因此 , 根据 这 样 一 个 模型 , 一 组 值 (yy } 
的 负 对 数 似 然 为 





L=% Ee, (10.32) 
t 
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其 中 

DM == log Py = y@ [yO gi 2259). (10.33) 

1 

OuOuDuDu Du 

> A 

+、 

OSM) 

X y / 


图 10.8: 在 RNN 图 模型 中 引入 状态 变量 ， 尽 管 它 是 输入 的 确定 性 函数 ,但 它 有 助 于 我 们 根据 
式 (10.5) 获得 非常 高 效 的 参数 化 。 序 列 中 的 每 个 阶段 (对 于 RO 和 yO ) 使 用 相同 的 结构 ( 每 个 
节点 具有 相同 数量 的 输入 )， 并且 可 以 与 其 他 阶段 共享 相同 的 参数 。 


























图 模型 中 的 边 表 示 哪 些 变量 直接 依赖 于 其 他 变量 。 许 多 图 模型 的 目标 是 省 略 不 
存在 强 相互 作用 的 边 以 实现 统计 和 计算 的 效率 。 例 如 ， 我 们 通常 可 以 作 Markov 假 设 ， 
即 图 模型 应 该 只 包含 从 fy), yD} Bl yO 的 边 ， 而 不 是 包含 整个 过 去 历史 
的 边 。 然 而 ， 在 一 些 情况 下 ， 我 们 认为 整个 过 去 的 输入 会 对 序列 的 下 一 个 元 素 有 一 
定 影响 。 当 我 们 认为 yO 的 分 布 可 能 取决 于 遥远 过 去 (在 某 种 程度 ) 的 yO 的 值 ， 且 
无 法 通过 y(4-0 捕获 yO 的 影响 时 ，RNN 将 会 很 有 用 。 

解释 RNN 作为 图 模型 的 一 种 方法 是 将 RNN 视 为 定义 一 个 结构 为 完全 图 的 图 模 
型 ， 且 能 够 表示 任何 一 对 y 值 之 间 的 直接 联系 。 图 10.7 是 关于 y 值 且 具有 完全 图 结 
构 的 图 模型 。 该 RNN 完全 图 的 解释 基于 排除 并 忽略 模型 中 的 隐藏 单元 A 

更 有 趣 的 是 ， 将 隐藏 单 元 hO 视 为 随机 变量 ， 从 而 产生 RNN 的 图 模型 结构 1。 
在 图 模型 中 包括 隐藏 单元 预示 RNN 能 对 观测 的 联合 分 布 提供 非常 有 效 的 参数 化 。 
假设 我 们 用 表格 表示 法 来 表示 离散 值 上 任意 的 联合 分 布 ， 即 对 每 个 值 可 能 的 赋值 分 
配 一 个 单独 条 目的 数组 ， 该 条 目 表 示 发 生 该 赋值 的 概率 。 如 果 y ATR k 个 不 同 的 
值 ， 表 格 表示 法 将 有 O(k7) 个 参数 。 对 比 RNN， 由 于 参数 共享 ，RNN 的 参数 数目 
为 O() 且 是 序列 长 度 的 函数 。 我 们 可 以 调节 RNN 的 参数 数量 来 控制 模型 容量 ,但 
不 用 被 迫 与 序列 长 度 成 比例 。 式 (10.5) 展示 了 所 述 RNN 通过 循环 应 用 相同 的 函数 f 
以 及 在 每 个 时 间 步 的 相同 参数 6， 有 效 地 参数 化 的 变量 之 间 的 长 期 联系 。 图 10.8 说 


“给 定 这 些 变量 的 父 变 量 ， 其 条 件 分 布 是 确定 性 的 。 尽 管 设计 具有 这 样 确定 性 的 隐藏 单元 的 图 模型 是 很 少见 的 ， 但 
这 是 完全 合理 的 。 
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明了 这 个 图 模型 的 解释 。 在 图 模型 中 结合 WO 节点 可 以 用 作 过 去 和 未 来 之 间 的 中 间 
量 ， 从 而 将 它们 解 耦 。 遥 远 过 去 的 变量 yO 可 以 通过 其 对 h 的 影响 来 影响 变量 yO 
该 图 的 结构 表明 可 以 在 时 间 步 使 用 相同 的 条 件 概 率 分 布 有 效 地 参数 化 模型 ， 并 且 当 
观察 到 全 部 变量 时 ， 可 以 高 效 地 评估 联合 分 配给 所 有 变量 的 概率 。 

即便 使 用 高 效 参 数 化 的 图 模型 ， 某 些 操作 在 计算 上 仍然 具有 挑战 性 。 例 如 ， 难 
以 预测 序列 中 缺少 的 值 。 

循环 网 络 为 减少 的 参数 数目 付出 的 代价 是 优化 参数 可 能 变 得 困难 。 

在 循环 网 络 中 使 用 的 参数 共享 的 前 提 是 相同 参数 可 用 于 不 同时 间 步 的 假设 。 也 
就 是 说 ， 假 设 给 定时 刻 t 的 变量 后 ， 时 刻 t 十 1 变量 的 条 件 概率 分 布 是 平稳 的 
(stationary )， 这 意味 着 之 前 的 时 间 步 与 下 个 时 间 步 之 间 的 关系 并 不 依赖 于 t。 原 则 
上 ， 可 以 使 用 上 作为 每 个 时 间 步 的 额外 输入 ， 并 让 学 习 器 在 发 现任 何 时 间 依 赖 性 的 
同时 ， 在 不 同时 间 步 之 间 尽 可 能 多 地 共享 。 相 比 在 每 个 t 使 用 不 同 的 条 件 概率 分 布 
已 经 好 很 多 了 ， 但 网 络 将 必须 在 面 对 新 上 时 进行 推断 。 

为 了 完整 描述 将 RNN 作为 图 模型 的 观点 ,我 们 必须 描述 如 何 从 模型 采样 。 我 们 
需要 执行 的 主要 操作 是 简单 地 从 每 一 时 间 步 的 条 件 分 布 采样 。 然 而 ， 这 会 导致 额外 
的 复杂 性 。RNN 必须 有 某 种 机 制 来 确定 序列 的 长 度 。 这 可 以 通过 多 种 方式 实现 。 

在 当 输 出 是 从 词汇 表 获 取 的 符号 的 情况 下 ， 我 们 可 以 添加 一 个 对 应 于 序列 末端 
的 特殊 符号 (Schmidhuber, 2012)。 当 产生 该 符号 时 ,采样 过 程 停止 。 在 训练 集中 ， 
我 们 将 该 符号 作为 序列 的 一 个 额外 成 员 ， 即 紧 跟 每 个 训练 样本 xz" 之 后 。 

另 一 种 选择 是 在 模型 中 引入 一 个 额外 的 Bernoulli 输出 ， 表 示 在 每 个 时 间 步 决定 
继续 生成 或 停止 生成 。 相 比 向 词汇 表 增 加 一 个 额外 符号 ， 这 种 方法 更 普遍 ， 因 为 它 
适用 于 任何 RNN， 而 不 仅仅 是 输出 符号 序列 的 RNN。 例 如 ， 它 可 以 应 用 于 一 个 产 
生 实数 序列 的 RNN。 新 的 输出 单元 通常 使 用 sigmoid AIC, HAKURI. E 
这 种 方法 中 ，sigmoid 被 训练 为 最 大 化 正确 预测 的 对 数 似 然 ， 即 在 每 个 时 间 步 序列 决 

确定 序列 长 度 r 的 另 一 种 方法 是 将 一 个 额外 的 输出 添加 到 模型 并 预测 整数 7 本 
身 。 模 型 可 以 采 出 7 的 值 ， 然 后 采 7 步 有 价值 的 数据 。 这 种 方法 需要 在 每 个 时 间 
步 的 循环 更 新 中 增加 一 个 额外 输入 ， 使 得 循环 更 新 知道 它 是 否 是 靠近 所 产生 序列 的 
末尾 。 这 种 额外 的 输入 可 以 是 7 的 值 ， 也 可 以 是 7+ 一 t 即 剩 下 时 间 步 的 数量 。 如 果 
没有 这 个 额外 的 输入 ，RNN 可 能 会 产生 突然 结束 序列 ， 如 一 个 句子 在 最 终 完 整 前 结 
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束 。 此 方法 基于 分 解 
P a pa | (10.34) 


直接 预测 r 的 例子 见 Goodfellow et al. (2014d). 


10.2.4 基于 上 下 文 的 RNN 序列 建 模 


上 一 节 描 述 了 没有 输入 x 时 ， 关 于 随机 变量 序列 y(? 的 RNN 如 何 对 应 于 有 向 图 
模型 。 当 然 ， 如 式 (10.8) 所 示 的 RNN 包 含 一 个 输入 序列 a), 2... 07, 一 般 情况 
F, RNN 允许 将 图 模型 的 观点 扩展 到 不 仅 代表 y 变量 的 联合 分 布 也 能 表示 给 定 z 
后 y 条 件 分 布 。 如 在 第 6.2.1.1 节 的 前 馈 网 络 情形 中 所 讨论 的 ,任何 代表 变量 P(y; 0) 
的 模型 都 能 被 解释 为 代表 条 件 分 布 P(y | w) 的 模型 ， 其 中 w = 9。 我 们 能 像 之 前 一 
样 使 用 P(y | w) 代表 分 布 P(y | 四 来 扩展 这 样 的 模型 ， 但 要 令 w 是 关于 z 的 函数 。 
在 RNN 的 情况 , 这 可 以 通过 不 同 的 方式 来 实现 。 此 人 处, 我 们 回顾 最 常见 和 最 明显 的 
选择 。 

之 前 ,我 们 已 经 讨论 了 将 t=1,...,7 的 向 量 O 序列 作为 输入 的 RNN。 男 一 
种 选择 是 只 使 用 单个 向 量 z 作为 输入 。 当 zx 是 一 个 固定 大 小 的 向 量 时 ， 我 们 可 以 简 
单 地 将 其 看 作 产生 y 序列 RNN 的 额外 输入 。 将 额外 输入 提供 到 RNN 的 一 些 常见 
方法 是 : 


1. 在 每 个 时 刻 作为 一 个 额外 输入 ,或 
2. 作为 初始 状态 hO, By 
3. 结合 两 种 方式 。 





第 一 个 也 是 最 常用 的 方法 如 图 10.9 所 示 。 输 入 xz 和 每 个 隐藏 单元 向 量 AO 之 间 
的 相互 作用 是 通过 新 引入 的 权重 矩阵 BR 参数 化 的 ， 这 是 只 包含 y 序列 的 模型 所 没有 
的 。 同 样 的 乘积 x' R 在 每 个 时 间 步 作为 隐藏 单元 的 一 个 额外 输入 。 我 们 可 以 认为 x 
的 选择 (确定 z' RR 值 )， 是 有 效 地 用 于 每 个 隐藏 单元 的 一 个 新 偏 置 参 数 。 权 重 与 输 
入 保持 独立 。 我 们 可 以 认为 这 种 模型 采用 了 非 条 件 模型 的 92， 并 将 w 代入 9， 其 中 
w 内 的 偏 置 参数 现在 是 输入 的 函数 。 

RNN 可 以 接收 向 量 序列 O 作为 输入 ， 而 不 是 仅 接收 单个 向 量 z 作为 输入 。 
式 (10.8) 描述 的 RNN 对 应 条 件 分 布 P(y,...,y(?P | @®,...,0@), FRE AP 
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图 10.9: 将 固定 长 度 的 向 量 s 映射 到 序列 Y 上 分 布 的 RNN。 这 类 RNN 适用 于 很 多 任务 如 图 注 ， 
其 中 单个 图 像 作为 模型 的 输入 ， 然 后 产生 描述 图 像 的 词 序列 。 观 察 到 的 输出 序列 的 每 个 元 素 yO? 
同时 用 作 输 入 (对 于 当前 时 间 步 ) 和 训练 期 间 的 目标 ( 对 于 前 一 时 间 步 )。 
































的 假设 下 这 个 分 布 分 解 为 
[eo T2,...,2). (10.35) 


为 去 掉 条 件 独立 的 假设 ,我 们 可 以 在 时 刻 t 的 输出 到 时 刻 t 十 1 的 隐藏 单元 添加 连 
接 ， 如 图 10.10 所 示 。 该 模型 就 可 以 代表 关于 y 序列 的 任意 概率 分 布 。 这 种 给 定 一 个 

序列 表示 男 一 个 序列 分 布 的 模型 的 还 是 有 一 个 限制 ， 就 是 这 两 个 序列 的 长 度 必须 是 
相同 的 。 我 们 将 在 第 10.4 节 描述 如 何 消除 这 种 限制 
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图 10.10: 将 可 变 长 度 的 z 值 序列 映射 到 相同 长 度 的 _y 值 序列 上 分 布 的 条 件 循环 神经 网 络 。 对 比 
图 10.3， 此 RNN 包含 从 前 一 个 输出 到 当前 状态 的 连接 。 这 些 连接 允许 此 RNN 对 给 定 z 的 序列 后 
相同 长 度 的 y 序列 上 的 任意 分 布 建 模 。 图 10.3 的 RNN 仅 能 表示 在 给 定 z 值 的 情况 下 ，y 值 彼此 
条 件 独立 的 分 布 。 











10.3 双向 RNN 


目前 为 止 我 们 考虑 的 所 有 循环 神经 网 络 有 一 个 “因果 ”结构 ,意味 着 在 时 刻 t 的 
状态 只 能 从 过 去 的 序列 zi ED 以 及 当前 的 输入 zt 捕获 信息 。 我 们 还 讨论 
了 某 些 在 y 可 用 时 ， 人 允许 过 去 的 y 值 信息 影响 当前 状态 的 模型 。 

然而 ， 在 许多 应 用 中 ， 我 们 要 输出 的 Yi9 的 预测 可 能 依赖 于 整个 输入 序列 。 例 
如 ， 在 语音 识别 中 ， 由 于 协同 发 音 ， 当 前 声音 作为 音素 的 正确 解释 可 能 取决 于 未 来 
几 个 音素 ， 甚 至 潜在 的 可 能 取决 于 未 来 的 几 个 词 ， 因 为 词 与 附近 的 词 之 间 的 存在 语 
SOM: 如 果 当 前 的 词 有 两 种 声学 上 合理 的 解释 ， 我 们 可 能 要 在 更 远 的 未 来 (和 过 
E) 寻找 信息 区 分 它们 。 这 在 手写 识别 和 许多 其 他 序列 到 序列 学 习 的 任务 中 也 是 如 
此 ， 将 会 在 下 一 节 中 描述 。 

双向 循环 神经 网 络 (或 双向 RNN ) 为 满足 这 种 需要 而 被 发 明 (Schuster and 
Paliwal, 1997)。 他 们 在 需要 双向 信息 的 应 用 中 非常 成 功 (Graves, 2012)， 如 手写 














ww ai bbt.com DODDOODOD 


dourbz/350DFo 


336 ETÈ ”序列 建 模 : 循环 和 递归 网 络 


识别 (Graves et al., 2008; Graves and Schmidhuber，2009)， 语 音 识 别 (Graves and 
Schmidhuber, 2005; Graves et al., 2013) 以 及 生物 信息 学 (Baldi et al., 1999). 


顾名思义 ,双向 RNN 结合 时 间 上 从 序列 起 点 开始 移动 的 RNN 和 男 一 个 时 间 上 
从 序列 末尾 开始 移动 的 RNN。 图 10.11 展示 了 典型 的 双向 RNN, 其 中 ht 代表 通过 
时 间 向 前 移动 的 子 RNN 的 状态 ，g 代表 通过 时 间 向 后 移动 的 子 RNN 的 状态 。 这 
允许 输出 单元 o 能 够 计算 同时 依赖 于 过 去 和 未 来 且 对 时 刻 t 的 输入 值 最 敏感 的 表 
示 ， 而 不 必 指 定 t 周围 固定 大 小 的 窗口 ( 这 是 前 馈 网 络 、 卷 积 网 络 或 具有 固定 大 小 
的 先行 缓存 器 的 常规 RNN 所 必须 要 做 的 )。 











图 10.11: 典型 的 双向 循环 神经 网 络 中 的 计算 ， 意 图 学 习 将 输入 序列 z 映射 到 目标 序列 y (在 每 个 
步骤 t 具有 损失 LO )。 循 环 性 h 在 时 间 上 向 前 传播 信息 ( 向 右 )， 而 循环 性 g 在 时 间 上 向 后 传播 
信息 (向 左 )。 因 此 在 每 个 点 +， 输 出 单元 o” 可 以 受益 于 输入 hO 中 关于 过 去 的 相关 概要 以 及 输 
入 gË 中 关于 未 来 的 相关 概要 。 




















这 个 想法 可 以 自然 地 扩展 到 2 维 输入 ， 如 图 像 ， 由 四 个 RNN 组 成 ， 每 一 个 沿 
着 四 个 方向 中 的 一 个 计算 : 上 、 下 、 左 、 右 。 如 果 RNN 能 够 学 习 到 承载 长 期 信息 ， 
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那 在 2 维 网 格 每 个 点 (i, 7 的 输出 0;; 就 能 计算 一 个 能 捕捉 到 大 多 局 部 信息 但 仍 依 
赖 于 长 期 输入 的 表示 。 相 比 卷 积 网 络 ， 应 用 于 图 像 的 RNN 计算 成 本 通常 更 高 , 但 允 
许 同一 特征 图 的 特征 之 间 存 在 长 期 横向 的 相互 作用 (Visin et al., 2015; Kalchbrenner 
et al., 2015)。 实 际 上 ， 对 于 这 样 的 RNN， 前 向 传播 公式 可 以 写成 表示 使 用 卷 积 的 
形式 ,计算 自 底 向 上 到 每 一 层 的 输入 (在 整合 横向 相互 作用 的 特征 图 的 循环 传播 之 
前 )。 


10.4 ”基于 编码 -解码 的 序列 到 序列 架构 


我 们 已 经 在 图 10.5 看 到 RNN 如 何 将 输入 序列 映射 成 固定 大 小 的 向 量 ， 在 
图 10.9 中 看 到 RNN 如 何 将 固定 大 小 的 向 量 映 射 成 一 个 序列 ， 在 图 10.3 、 图 10.4 、 
图 10.10 和 图 10.11 中 看 到 RNN 如 何 将 一 个 输入 序列 映射 到 等 长 的 输出 序列 。 


本 市 我 们 讨论 如 何 训练 RNN， 使 其 将 输入 序列 映射 到 不 一 定 等 长 的 输出 序列 。 
这 在 许多 场景 中 都 有 应 用 ， 如 请 音 识别 、 机 带 翻 译 或 问答 ， 其 中 训练 集 的 输入 和 输 
出 序列 的 长 度 通常 不 相同 〈 虽然 它们 的 长 度 可 能 相关 )。 


我 们 经 常 将 RNN 的 输入 称 为 “上 下 文 ”。 J C。 
个 上 下 文 C 可 能 是 一 个 概括 输入 序列 X = (zt ne)) 的 向 量 或 者 向 量 序 ol, 


用 于 映射 可 变 长 度 序 列 到 另 一 可 变 长 度 序列 最 简单 的 RNN 架 构 最 初 由 Cho 
et al. (2014a) 提出 ， 之 后 不 久 由 Sutskever et al. (2014) 独立 开发 ， 并 且 第 一 个 使 
用 这 种 方法 获得 翻译 的 最 好 结果 。 前 一 系统 是 对 另 一 个 机 器 翻译 系统 产生 的 建 
议 进 行 评分 ， ja iiio < aiia 这 些 作者 分 别 将 该 架构 称 
为 编码 -解码 或 序列 到 序列 架构 ， 如 图 10.12 所 示 。 这 个 想法 非常 简单 : (1) 编码 
器 (encoder ) 或 读 取 器 (reader) 或 输入 (input) RNN 处 理 输入 序列 。 编 码 器 输出 
EFX C (通常 是 最 终 隐 藏 状态 的 简单 函数 )。(2) 解码 器 (decoder) 或 写 入 器 
(writer) 或 输出 (output) RNN 则 以 固定 长 度 的 向 量 (如 图 10.9 ) 为 条 件 产 生 输 出 
序列 Y= (yD,.…. ,YW)。 这 种 架构 对 比 本 章 前 几 节 提出 的 架构 的 创新 之 处 在 于 长 
度 nz A ny 可 以 彼此 不 同 ， 而 之 前 的 架构 约束 nz = ny = 7。 在 序列 到 序列 的 架构 
中 ， 两 个 RNN 共同 训练 以 最 大 化 log P(y,..., yo | 2®,.. 29) RF MER 
中 所 有 x 和 y 对 的 平均 )。 编 码 器 RNN 的 最 后 一 个 状态 通常 被 当 作 输入 的 表 
示 C 并 作为 解码 器 RNN 的 输入 。 


如 果 上 下 文 C 是 一 个 向 量 ， 则 编码 器 RNN 只 是 在 第 10.2.4 节 描述 的 向 量 到 序 
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Encoder 


(PO~ ) 
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Decoder y 
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图 10.12: 在 给 定 输 入 序列 (x, x... x0) 的 情况 下 学 习 生 成 输出 序列 (yD yO. yr) 
的 编码 需 - 解 码 需 或 序列 到 序列 的 RNN 架构 的 示例 。 它 由 读 取 输入 序列 的 编码 器 RNN 以 及 生成 
输出 序列 〈 或 计算 给 定 输出 序列 的 概率 ) 的 解码 器 RNN 组 成 。 编 码 器 RNN 的 最 终 隐 藏 状态 用 于 
计算 一 般 为 固定 大 小 的 上 下 文 变量 C, C 表示 输入 序列 的 语义 概要 并 且 作为 解码 器 RNN 的 输入 。 


























列 RNN。 正 如 我 们 所 见 ， 向 量 到 序列 RNN 至 少 有 两 种 接受 输入 的 方法 。 输 入 可 以 
被 提供 为 RNN 的 初始 状态 ,或 连接 到 每 个 时 间 步 中 的 隐藏 单元 。 这 两 种 方式 也 可 以 


te 
结合 。 


这 里 并 不 强制 要 求 编码 器 与 解码 器 的 隐藏 层 具有 相同 的 大 小 。 

此 架构 的 一 个 明显 不 足 是 ， 编 码 器 RNN 输出 的 上 下 文 C 的 维度 太 小 而 难以 适 
当地 概括 一 个 长 序列 。 这 种 现象 由 Bahdanau et al. (2015) 在 机 器 翻译 中 观察 到 。 他 
们 提出 让 C 成 为 可 变 长 度 的 序列 ， 而 不 是 一 个 固定 大 小 的 向 量 。 此 外 ， 他 们 还 引入 
了 将 序列 C 的 元 素 和 输出 序列 的 元 素 相 关联 的 注意 力 机 制 (attention mechanism )。 
读者 可 在 第 12.4.5.1 节 了 解 更 多 细节 。 
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10.5 深度 循环 网 络 


大 多 数 RNN 中 的 计算 可 以 分 解 成 三 块 参数 及 其 相关 的 变换 : 





1. 从 输入 到 隐藏 状态 ， 
2. 从 前 一 隐藏 状态 到 下 一 隐藏 状态 ， 以 及 
3. 从 隐藏 状态 到 输出 。 


根据 图 10.3 中 的 RNN 架构 ,这 三 个 块 都 与 单个 权重 矩阵 相关 联 。 换 句 话 说， 当 网 络 
被 展开 时 ,每 个 块 对 应 一 个 浅 的 变换 。 能 通过 深度 MLP 内 单个 层 来 表示 的 变换 称 为 
浅 变换 。 通 常 ， 这 是 由 学 成 的 仿 射 变换 和 一 个 固定 非 线性 表示 组 成 的 变换 。 

在 这 些 操 作 中 引入 深度 会 有 利 的 吗 ? 实验 证 据 (Graves, 2013; Pascanu et al., 
2014a) 强烈 瞳 示 理应 如 此 。 实 验证 据 与 我 们 需要 足够 的 深度 以 执行 所 需 映 射 的 想 
法 一 致 。 读 者 可 以 参考 Schmidhuber (1996); El Hihi and Bengio (1996) 或 Jaeger 
(2007a) 了 解 更 早 的 关于 深度 RNN 的 研究 。 

Graves (2013) 第 一 个 展示 了 将 RNN 的 状态 分 为 多 层 的 显著 好 人 处， 如 
图 10.13 (A). 我 们 可 以 认为 , 在 图 10.13 (a) 所 示 层 次 结构 中 较 低 的 层 起 到 了 将 原始 
输入 转化 为 对 更 高 层 的 隐藏 状态 更 合适 表示 的 作用 。Pascanu et al. (2014a) 更 进一步 
提出 在 上 述 三 个 块 中 各 使 用 一 个 单独 的 MLP ( 可 能 是 深度 的 )， 如 图 10.13 (b) 所 示 。 
考虑 表示 容量 ， 我 们 建议 在 这 三 个 步 中 都 分 配 足 够 的 容量 ， 但 增加 深度 可 能 会 因为 
优化 困难 而 损害 学 习 效果 。 在 一 般 情 况 下 , 更 容易 优化 较 浅 的 架构 ,加 入 图 10.13 (b) 
的 额外 深度 导致 从 时 间 步 t 的 变量 到 时 间 步 t 十 1 的 最 短路 径 变 得 更 长 。 例 如 ， 如 果 
有 具 有 单个 隐藏 层 的 MLP 被 用 于 状态 到 状态 的 转换 ， 那 么 与 图 10.3 相 比 ， 我 们 就 会 
加 倍 任何 两 个 不 同时 间 步 变量 之 间 最 短路 径 的 长 度 。 然 而 Pascanu et al. (2014a) 认 
为 ， 在 隐藏 到 隐藏 的 路 径 中 引入 跳跃 连接 可 以 缓和 这 个 问题 ， 如 图 10.13 (c) 所 示 。 
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(b) (c) 








图 10.13: 循环 神经 网 络 可 以 通过 许多 方式 变 得 更 深 (Pascanu et al., 2014a) (a) 隐藏 循环 状态 可 
以 被 分 解 为 具有 层次 的 组 。(b) 可 以 向 输入 到 隐藏 ， 隐 藏 到 隐藏 以 及 隐藏 到 输出 的 部 分 引入 更 深 的 
计算 (如 MLP)。 这 可 以 延长 链接 不 同时 间 步 的 最 短路 径 。(c) 可 以 引入 跳跃 连接 来 缓解 路 径 延 长 
的 效应 。 
































10.6” 递 归 神 经 网 络 


递归 神经 网 络 ? 代 表 循 环 网 络 的 另 一 个 扩展 ， 它 被 构造 为 深 的 树 状 结构 而 不 
是 RNN 的 链 状 结构 , 因此 是 不 同类 型 的 计算 图 .递归 网 络 的 典型 计算 图 如 图 10.14 所 
示 。 递 归 神 经 网 络 由 Pollack (1990) 引入 ,而 Bottou (2011) 描述 了 这 类 网 络 的 潜在 
用 途 一 一 学 习 推 论 。 递 归 网 络 已 成 功 地 应 用 于 输入 是 数据 结构 的 神经 网 络 (Frasconi 
et al., 1997, 1998)， 如 自然 语言 处 理 (Socher et al., 2011a,c, 2013a) 和 计算 机 视觉 
(Socher et al., 2011b)。 

递归 网 络 的 一 个 明显 优势 是 ， 对 于 具有 相同 长 度 r 的 序列 ， 深 度 (通过 非 线性 
操作 的 组 合 数量 来 衡量 ) 可 以 急剧 地 从 r 减 小 为 O(logr)， 这 可 能 有 助 于 解决 长 期 


?我 们 建议 不 要 将 “递归 神经 网 络 ”缩写 为 “RNN”， 以 免 与 “循环 神经 网 络 ” 混 消 。 
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依赖 。 一 个 悬而未决 的 问题 是 如 何以 最 佳 的 方式 构造 树 。 一 种 选择 是 使 用 不 依赖 于 
数据 的 树 结构 ， 如 平衡 二 又 树 。 在 某 些 应 用 领域 ， 外 部 方法 可 以 为 选择 适当 的 树 结 构 
提供 借鉴 。 例 如 ， 处 理 自然 语言 的 句子 时 ， 用 于 递归 网 络 的 树 结 构 可 以 被 固定 为 句 
子 语法 分 析 树 的 结构 ( 可 以 由 自然 语言 语法 分 析 程 序 提供 ) (Socher et al., 2011a,c)。 
理想 的 情况 下 ， 人 们 和 希望 学 习 融 自行 发 现 和 推断 适合 于 任意 给 定 输入 的 树 结 构 ， 如 
(Bottou, 2011) 所 建议 。 





OOOO 


图 10.14: 递归 网 络 将 循环 网 络 的 链 状 计算 图 推广 到 树 状 计算 图 。 可 变 大 小 的 序列 e, x2)... al 
可 以 通过 固定 的 参数 集合 (权重 矩阵 U, V, W) 映射 到 固定 大 小 的 表示 (输出 o )。 该 图 展示 了 监 
督学 习 的 情况 ， 其 中 提供 了 一 些 与 整个 序列 相关 的 目标 yo 









































递归 网 络 想法 的 变种 存在 很 多 。 例 如 ，Frasconi et al. (1997) 和 Frasconi et al. 
(1998) 将 数据 与 树 结构 相 关联 ， 并 将 输入 和 目标 与 树 的 单独 节点 相关 联 。 由 每 个 
点 执行 的 计算 无 须 是 传统 的 人 工 神 经 计算 (EAA IS APE — Naa 
性 )。 例 如 ，Socher et al. (2013a) 提出 用 张 量 运算 和 双 线 性 形式 ， 在 这 之 前 人 们 已 
经 发 现 当 概 念 是 由 连续 向 量 RA ) 表示 时 ， 这 种 方式 有 利于 建 模 概 念 之 间 的 联系 
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(Weston et al., 2010; Bordes et al., 2012)。 


10.7 ”长 期 依赖 的 挑战 


学 习 循环 网 络 长 期 依赖 的 数学 挑战 在 第 8.2.5 节 中 引入 。 根 本 问题 是 ， 经 过 许多 
阶段 传播 后 的 梯度 倾向 于 消失 ( 大 部 分 情况 ) 或 爆炸 (很 少 ， 但 对 优化 过 程 影 响 很 
大 )。 即 使 我 们 假设 循环 网 络 是 参数 稳定 的 ( 可 存储 记忆 ， 且 梯度 不 爆炸 ), 但 长 期 依 
赖 的 困难 来 自 比 短期 相互 作用 指数 小 的 权重 (涉及 许多 Jacobian 1HE ), 许多 资料 提 
供 了 更 深层 次 的 讨论 (Hochreiter, 1991a; Doya, 1993; Bengio et al., 1994a; Pascanu 
et al., 2013a)j。 在 这 一 节 中 ， 我 们 会 更 详细 地 描述 该 问题 。 其 余 几 节 介 绍 克 服 这 个 问 
题 的 方法 。 

循环 网 络 涉及 相同 函数 的 多 次 组 合 ， 每 个 时 间 步 一 次 。 这 些 组 合 可 以 导致 极端 
非 线 性 行为 ， 如 图 10.15 所 示 。 





Projection of output 





一 60 一 40 一 20 0 20 40 60 


Input coordinate 





图 10.15: 重复 组 合 函数 。 当 组 合 许多 非 线 性 函数 (如 这 里 所 示 的 线性 tanh 层 ) 时 ， 结 果 是 高 度 
非 线性 的 ， 通 常 大 多 数值 与 微小 的 导数 相关 联 ， 也 有 一 些 具 有 大 导数 的 值 ， 以 及 在 增加 和 减 小 之 
间 的 多 次 交替 。 此 处 ， 我 们 绘制 从 100 维 隐藏 状态 降 到 单个 维度 的 线性 投影 ， 绘 制 于 y 轴 上 。z 
轴 是 100 维 空间 中 沿 着 随机 方向 的 初始 状态 的 坐标 。 因 此 ， 我 们 可 以 将 该 图 视 为 高 维 函 数 的 线性 
截面 。 曲 线 显 示 每 个 时 间 步 之 后 的 函数 ,或 者 等 价 地 ， 转 换 函 数 被 组 合 一 定 次 数 之 后 。 















































特别 地 ， 循 环 神经 网 络 所 使 用 的 函数 组 合 有 点 像 矩 阵 乘法 。 我 们 可 以 认为 ， 循 


ww ai bbt. com DUODDOODOD 


dourbz/350DFo 


10.7 长 期 依赖 的 挑战 343 


环 联 系 
AY = wat) (10.36) 


是 一 个 非常 简单 的 、 缺 少 非 线性 激活 函数 和 输入 z 的 循环 神经 网 络 。 如 第 8.2.5 1 FH 
述 ， 这 种 递 推 关系 本 质 上 描述 了 老 法 。 它 可 以 被 简化 为 


AO = (WRO, (10.37) 
而 当 W 符合 下 列 形式 的 特征 分 解 
W= QAQ,, (10.38) 
其 中 Q@ 正 交 ， 循 环 性 可 进一步 简化 为 
h® = Q'A QRO. (10.39) 


特征 值 提升 到 上 次 后 ， 导 致 幅 值 不 到 一 的 特征 值 衰减 到 零 ， 而 幅 值 大 于 一 的 就 会 激 
增 。 任 何不 与 最 大 特征 向 量 对 齐 的 ht 的 部 分 将 最 终 被 丢弃 。 

这 个 问题 是 针对 循环 网 络 的 。 在 标量 情况 下 ， 想 象 多 次 乘 一 个 权重 w。 该 乘积 
wt 消失 还 是 爆炸 取决 于 w 的 幅 值 。 然 而 ， 如 果 每 个 时 刻 使 用 不 同 权重 w 的 非特 
环 网 络 ， 情 况 就 不 同 了 。 如 果 初 始 状态 给 定 为 1， 那 么 时 刻 t 的 状态 可 以 由 I, w 
给 出 。 假 设 wO 的 值 是 随机 生成 的 ， 各 自 独 立 ， 且 有 0 均值 v rA. RERNA 
就 为 O(vu")。 为 了 获得 某 些 期 望 的 方差 vw*， 我 们 可 以 选择 单个 方差 为 v = yv 权 
重 。 因此， 非常 深 的 前 馈 网 络 通过 精心 设计 的 比例 可 以 避免 梯度 消失 和 爆炸 问题 ， 
如 Sussillo (2014) 所 主张 的 。 

RNN 梯度 消失 和 爆炸 问题 是 由 不 同 研究 人 员 独 立 发 现 (Hochreiter, 1991a; 
Bengio et al., 1993, 1994a)。 有 人 可 能 会 希望 通过 简单 地 停留 在 梯度 不 消失 或 爆炸 的 
参数 空间 来 避免 这 个 问题 ,不幸 的 是 , 为 了 储存 记忆 并 对 小 扰动 具有 和 鲁 棱 性 , RNN 必 
须 进 入 参数 空间 中 的 梯度 消失 区 域 (Bengio et al., 1993, 1994a)。 具 体 来 说 ， 每 当 模 
型 能 够 表示 长 期 依赖 时 ， 长 期 相互 作用 的 梯度 幅 值 就 会 变 得 指数 小 ( 相 比 短期 相互 
作用 的 梯度 幅 值 )。 这 并 不 意味 着 这 是 不 可 能 学 习 的 ， 由 于 长 期 依赖 关系 的 信号 很 容 
易 被 短期 相关 性 产生 的 最 小 波动 隐藏 ， 因 而 学 习 长 期 依赖 可 能 需要 很 长 的 时 间 。 实 
践 中 ，Bengio et al. (1994a) 的 实验 表明 ， 当 我 们 增加 了 需要 捕获 的 依赖 关系 的 跨度 ， 
基于 梯度 的 优化 变 得 越 来 越 困 难 ，SGD 在 长 度 仅 为 10 或 20 的 序列 上 成 功 训 练 传 
统 RNN 的 概率 迅速 变 为 0。 








ww ai bbt.com DODDDDODOD 


do DES 


H4 第 十 章 ”序列 建 模 : 循环 和 递归 网 络 


将 循环 网 络 作为 动力 系统 更 深入 探讨 的 资料 见 Doya (1993); Bengio et al. 
(1994a); Siegelmann and Sontag (1995) 及 Pascanu et al. (2013b) 的 回顾 。 本章 的 其 
余部 分 将 讨论 目前 已 经 提出 的 降低 学 习 长 期 依赖 (在 某 些 情况 下 ,允许 一 个 RNN 学 
习 横 跨 数 百 步 的 依赖 ) 难度 的 不 同方 法 ， 但 学 习 长 期 依赖 的 问题 仍 是 深度 学 习 中 的 
一 个 主要 挑战 。 








10.8 ”回声 状态 网 络 


Mao? 到 ht 的 循环 权重 映射 以 及 从 sO 到 ht 的 输入 权重 映射 是 循环 网 
络 中 最 难 学 习 的 参数 。 研 究 者 (Jaeger, 2003; Maass et al., 2002; Jaeger and Haas, 
2004) 提出 避免 这 种 困难 的 方法 是 设 定 循环 隐藏 单元 ， 使 其 能 很 好 地 捕捉 过 去 输入 
历史 ， 并 且 只 学 习 输 出 权重 。 回 声 状态 网 络 (echo state network ) 或 ESN (Jaeger 
and Haas, 2004; Jaeger, 2007b)， 以 及 流体 状态 机 (liquid state machine ) (Maass 
et al., 2002) 分 别 独立 地 提出 了 这 种 想法 。 后 者 是 类 似 的 ， 只 不 过 它 使 用 脉冲 神经 元 
(二 值 输出 ) 而 不 是 ESN 中 的 连续 隐藏 单元 。ESN 和 流体 状态 机 都 被 称 为 储 层 计算 
(reservoir computing ) (Lukoševičius and Jaeger, 2009) ， 因 为 隐藏 单元 形成 了 可 能 
捕获 输入 历史 不 同方 面 的 临时 特征 池 。 

储 层 计算 循环 网 络 类 似 于 核 机 器 ， 这 是 思考 它们 的 一 种 方式 : 它们 将 任意 长 度 
的 序列 ( 到 时 刻 t 的 输入 历史 ) 映射 为 一 个 长 度 固 定 的 向 量 (循环 状态 AO), ZA 
可 以 施加 一 个 线性 预测 算 子 (通常 是 一 个 线性 回归 ) 以 解决 感 兴趣 的 问题 。 训 练 准 
则 就 可 以 很 容易 地 设计 为 输出 权重 的 凸 函 数 。 例 如 ， 如 果 输 出 是 从 隐藏 单元 到 输出 
目标 的 线性 回归 ， 训 练 准则 就 是 均 方 误差 ， 由 于 是 凸 的 就 可 以 用 简单 的 学 习 算 法 可 
靠 地 解决 (Jaeger, 2003)。 

因此 ， 重 要 的 问题 是 : 我 们 如 何 设置 输入 和 循环 权重 才能 让 一 组 丰富 的 历史 可 
以 在 循环 神经 网 络 的 状态 中 表示 ? 储 层 计 算 研 究 给 出 的 答案 是 将 循环 网 络 视 为 动态 
系统 ， 并 设 定 让 动态 系统 接近 稳定 边缘 的 输入 和 循环 权重 。 

最 初 的 想法 是 使 状态 到 状态 转换 函数 的 Jacobian 矩阵 的 特征 值 接近 1。 如 
第 8.2.5 节 解释 ， 循 环 网 络 的 一 个 重要 特征 就 是 Jacobian 矩阵 的 特征 值 谱 1? = 
BL 。 特 别 重要 的 是 JO 的 谱 半 径 (spectral radius )， 定 义 为 特征 值 的 最 大 绝对 
值 。 

为 了 解 谱 半径 的 影响 ， 可 以 考虑 反 向 传播 中 Jacobian 和 矩阵 J 了 不随 t 改变 的 简单 
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情况 。 例 如 当 网 络 是 纯 线性 时 ， 会 发 生 这 种 情况 。 假 设 了 特征 值 和 对 应 的 特征 向 量 
为 ve 考虑 当 我 们 通过 时 间 向 后 传播 梯度 向 量 时 会 发 生 什 么 。 如 果 刚 开始 的 梯度 向 量 
为 g， 然 后 经 过 反 疝 传播 的 一 个 步骤 后 ， 我 们 将 得 到 Jg, n 步 之 后 我 们 会 得 到 I" ge 
现在 考虑 如 果 我 们 向 后 传播 扰动 版 本 的 9 会 发 生 什么 。 如 有 果 我 们 刚 开始 是 g + 56%， 
一 步 之 后 ， 我 们 会 得 到 J(g 十 dv). n 步 之 后 ， 我 们 将 得 到 J (gt ov). HERRIE 
以 看 出 , 由 g 开始 的 反 向 传播 和 由 gt bu 开始 的 反 向 传播 ，n 步 之 后 偏离 5J*v。 如 
R v 选择 为 了 特征 值 和 对 应 的 一 个 单位 特征 向 量 ， 那 么 在 每 一 步 乘 Jacobian 矩阵 
只 是 简单 地 缩放 。 反 向 传播 的 两 次 执行 分 离 的 距离 为 6| 和 |"。 当 wv 对 应 于 最 大 特征 值 
IA， 初 始 扰动 为 6 时 这 个 扰动 达到 可 能 的 最 宽 分 离 。 

当 | 和 | > 1, m% | 和 ”就 会 指数 增长 。 当 | 和 | < 1， 偏 差 就 会 变 得 指数 小 。 

当然 ， 这 个 例子 假定 Jacobian 和 矩阵 在 每 个 时 间 步 是 相同 的 ， 即 对 应 于 没有 非 线 
性 循环 网 络 。 当 非 线性 存在 时 ， 非 线性 的 导数 将 在 许多 时 间 步 后 接近 零 ， 并 有 助 于 
防止 因 过 大 的 谱 半径 而 导致 的 爆炸 。 事 实 上 ， 关 于 回声 状态 网 络 的 最 近 工 作 提 倡 使 
用 远大 于 1 的 谱 半 径 (Yildiz et al., 2012; Jaeger, 2012). 

我 们 已 经 说 过 多 次 ， 通 过 反复 矩阵 乘法 的 反 向 传播 同样 适用 于 没有 非 线 性 的 正 
向 传播 的 网 络 ， 其 状态 为 Ai+D = hO W, 

如 果 线 性 映射 Wl E L 范 数 的 测度 下 总 是 缩小 h， 那 么 我 们 说 这 个 映射 是 收 
缩 (contractive ) 的 。 当 谱 半 径 小 于 一 , WA AO 到 AO) 的 映射 是 收缩 的 ， 因 此 小 
变化 在 每 个 时 间 步 后 变 得 更 小 。 当 我 们 使 用 有 限 精度 ( 如 32 位 整数 ) 来 存储 状态 向 
量 时 ， 必 然 会 使 得 网 络 忘掉 过 去 的 信息 。 

Jacobian 和 矩阵 告诉 我 们 hO 一 个 微小 的 变化 如 何 向 前 一 步 传播 ， 或 等 价 的 ， 
ACT) 的 梯度 如 何 向 后 一 步 传 播 。 需要 注意 的 是 ， 例 和 J 都 不 需要 是 对 称 的 ( 尽管 
它们 是 实 方 阵 )， 因 此 它们 可 能 有 复 的 特征 值 和 特征 向 量 ， 其 中 虚数 分 量 对 应 于 淤 
在 的 振荡 行为 (如 果 迷 代 地 应 用 同一 Jacobian )。 即 使 AO 或 h 中 有 趣 的 小 变化 
在 反 向 传播 中 是 实 值 的 , 它们 仍 可 以 用 这 样 的 复数 基 表 示 。 重 要 的 是 ， 当 向 量 乘 以 拢 
阵 时 ， 这 些 复数 基 的 系数 幅 值 ( 复数 的 绝对 值 ) 会 发 生 什 么 变化 。 幅 值 大 于 1 的 特 
征 值 对 应 于 放大 (如果 反复 应 用 则 指数 增长 ) 或 收缩 ( 如 果 反 复 应 用 则 指数 减 小 )。 

非 线性 映射 情况 时 ，Jacobian 会 在 每 一 步 任意 变化 。 因 此 ， 动 态 量变 得 更 加 复 
杂 。 然 而 ， 一 个 小 的 初始 变化 多 步 之 后 仍然 会 变 成 一 个 大 的 变化 。 纯 线性 和 非 线性 
情况 的 一 个 不 同 之 处 在 于 使 用 压缩 非 线性 〈 如 tanh) 可 以 使 循环 动态 量 有 界 。 注 意 ， 
即使 前 向 传播 动态 量 有 界 ， 反 向 传播 的 动态 量 仍然 可 能 无 界 ， 例 如 ， 当 tanh 序列 
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都 在 它们 状态 中 间 的 线性 部 分 ， 并且 由 谱 半 径 大 于 1 的 权重 矩阵 连接 。 然 而 ， 所 有 
tanh 单元 同时 位 于 它们 的 线性 激活 点 是 非常 罕见 的 。 

回声 状态 网 络 的 策略 是 简单 地 固定 权重 使 其 具有 一 定 的 谱 半径 如 3， 其 中 信息 
通过 时 间 前 向 传播 ， 但 会 由 于 饱和 非 线性 单元 (如 tanh) 的 稳定 作用 而 不 会 爆炸 。 

最 近 ， 已 经 有 研究 表明 ， 用 于 设置 ESN 权重 的 技术 可 以 用 来 初始 化 完全 可 训练 
的 循环 网 络 的 权重 〈 通 过 时 间 反 向 传播 来 训练 隐藏 到 隐藏 的 循环 权重 )， 帮 助 学 习 长 
期 依赖 (Sutskever, 2012; Sutskever et al., 2013)。 在 这 种 设 定 下 ， 结 合 第 8.4 节 中 稀 
玻 初始 化 的 方案 ， 设 置 1.2 的 初始 谱 半径 表现 不 错 。 











10.9 ” 滩 漏 单元 和 其 他 多 时 间 尺 度 的 策略 


处 理 长 期 依赖 的 一 种 方法 是 设计 工作 在 多 个 时 间 尺 度 的 模型 ， 使 模型 的 菏 些 部 
分 在 细 粒 度 时 间 尺 度 上 操作 并 能 处 理 小 细节 ， 而 其 他 部 分 在 粗 时 间 尺 度 上 操作 并 能 
把 遥远 过 去 的 信息 更 有 效 地 传递 过 来 。 存 在 多 种 同时 构建 粗细 时 间 斥 度 的 策略 。 这 
些 策略 包括 在 时 间 轴 增加 跳跃 连接 ,“ 渗 漏 单 元 ”使 用 不 同时 间 常 数 整 合 信号 ， 并 去 
除 一 些 用 于 建 模 细 粒 度 时 间 尺 度 的 连接 。 








10.9.1 ”时 间 维 度 的 跳跃 连接 

















增加 从 遥远 过 去 的 变量 到 目前 变量 的 直接 连接 是 得 到 粗 时 间 尺 度 的 一 种 方法 。 
使 用 这 样 跳跃 连接 的 想法 可 以 追溯 到 Lin et al. (1996)， 紧 接 是 向 前 馈 网 络 引 入 延迟 
的 想法 (Lang and Hinton, 1988)。 在 普通 的 循环 网 络 中 ,循环 从 时 刻 t 的 单元 连接 
到 时 刻 t 十 1 单元。 构造 较 长 的 延迟 循环 网 络 是 可 能 的 (Bengio et al., 1991)。 

正如 我 们 在 第 8.2.5 节 看 到 ， 梯 度 可 能 关于 时 间 步 数 呈 指数 消失 或 爆炸 。(Lin 
et al., 1996) 引入 了 d 延 时 的 循环 连接 以 减轻 这 个 问题 。 现 在 导数 指数 减 小 的 速度 与 
5 相关 而 不 是 r。 既 然 同 时 存在 延迟 和 单 步 连接 ， 梯 度 仍 可 能 成 t 指数 爆炸 。 这 允许 
学 习 算 法 捕获 更 长 的 依赖 性 ， 但 不 是 所 有 的 长 期 依赖 都 能 在 这 种 方式 下 良好 地 表示 。 
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10.9.2 ” 渗 漏 单元 和 一 系列 不 同时 间 尺 度 








获得 导数 乘积 接近 1 的 男 一 方式 是 设置 线性 自 连接 单元 ， 并 且 这 些 连 接 的 权重 
接近 1。 

我 们 对 某 些 v 值 应 用 更 新 1 — oat 了 十 (1 一 Qq)v 只 累积 一 个 滑动 平均 值 LO, 
其 中 a 是 一 个 从 At 到 pO 线性 自 连接 的 例子 。 当 a 接近 1 时 , 滑动 平均 值 能 记 
住 过 去 很 长 一 段 时 间 的 信息 , 而 当 a 接近 0, 关于 过 去 的 信息 被 迅速 丢弃 。 线 性 自 连 
接 的 隐藏 单元 可 以 模拟 滑动 平均 的 行为 。 这 种 隐藏 单元 称 为 渗 漏 单元 (leaky unit )。 

d 时 间 步 的 跳跃 连接 可 以 确保 单元 总 能 被 先前 的 a 个 时 间 步 值 影响 。 使 用 权重 
接近 1 的 线性 自 连 接 是 确保 该 单元 可 以 访问 过 去 值 的 不 同方 式 。 线 性 自 连接 通过 调 
节 实 值 a 更 平滑 灵活 地 调整 这 种 效果 ， 而 不 是 调整 整数 值 的 跳跃 长 度 。 

这 个 想法 由 Mozer (1992) 和 El Hihi and Bengio (1996) 提出 。 在 回声 状态 网 
络 中 ， 渗 漏 单元 也 被 发 现 很 有 用 (Jaeger et al., 2007). 

我 们 可 以 通过 两 种 基本 策略 设置 渗 漏 单元 使 用 的 时 间 稼 数 。 一 种 策略 是 手动 将 
其 固定 为 常数 ， 例 如 在 初始 化 时 从 某 些 分 布 采样 它们 的 值 。 另 一 种 策略 是 使 时 间 常 
数 成 为 自由 变量 ， 并 学 习 出 来 。 在 不 同时 间 尺 度 使 用 这 样 的 渗 漏 单元 似乎 能 帮助 学 
习 长 期 依赖 (Mozer, 1992; Pascanu et al., 2013a)。 














10.9.3 ”删除 连接 


处 理 长 期 依赖 另 一 种 方法 是 在 多 个 时 间 尺 度 组 织 RNN 状态 的 想法 (El Hihi and 
Bengio, 1996) ， 信 息 在 较 慢 的 时 间 尺 度 上 更 容易 长 距离 流动 。 

这 个 想法 与 之 前 讨论 的 时 间 维 度 上 的 跳跃 连接 不 同 ， 因 为 它 涉及 主动 删除 长 度 
为 一 的 连接 并 用 更 长 的 连接 替换 它们 。 以 这 种 方式 修改 的 单元 被 迫 在 长 时 间 尺 度 上 
运作 。 而 通过 时 间 跳 跃 连接 是 添加 边 。 收 到 这 种 新 连接 的 单元 ， 可 以 学 习 在 长 时 间 
尺度 上 运作 ,但 也 可 以 选择 专注 于 自己 其 他 的 短期 连接 。 

强制 一 组 循环 单元 在 不 同时 间 尺 度 上 运作 有 不 同 的 方式 。 一 种 选择 是 使 循环 
单元 变 成 渗 漏 单元 ， 但 不 同 的 单元 组 关联 不 同 的 固定 时 间 尺 度 。 这 由 Mozer (1992) 
提出 ， 并 被 成 功 应 用 于 Pascanu et al. (2013a)。 另 一 种 选择 是 使 显 式 且 离散 的 更 新 
发 生 在 不 同 的 时 间 ， 不 同 的 单元 组 有 不 同 的 频率 。 这 是 El Hihi and Bengio (1996) 
和 Koutnik et al. (2014) 的 方法 。 它 在 一 些 基 准 数据 集 上 表现 不 错 。 
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10.10 ”长 短期 记忆 和 其 他 门 控 RNN 


本 文 撰写 之 时 ， 实 际 应 用 中 最 有 效 的 序列 模型 称 为 门 控 RNN (gated RNN )。 
包括 基于 长 短期 记忆 (long short-term memory ) 和 基于 门 控 循 环 单元 (gated 
recurrent unit ) 的 网 络 。 

像 渗 漏 单元 一 样 , 门 控 RNN 想法 也 是 基于 生成 通过 时 间 的 路 径 ， 其 中 导数 既 不 
消失 也 不 发 生 爆 炸 。 渗 漏 单元 通过 手动 选择 常量 的 连接 权重 或 参数 化 的 连接 权重 来 
达到 这 一 目的 。 门 控 RNN 将 其 推广 为 在 每 个 时 间 步 都 可 能 改变 的 连接 权重 。 

渗 漏 单元 允许 网 络 在 较 长 持续 时 间 内 积 系 信息 (诸如 用 于 特定 特征 或 类 的 线 
索 )。 然 而 ， 一 旦 该 信息 被 使 用 ， 让 神经 网 络 遗 总 旧 的 状态 可 能 是 有 用 的 。 例 如 ， 如 
果 一 个 序列 是 由 子 序列 组 成 ， 我 们 希望 渗 漏 单元 能 在 各 子 序列 内 积累 线索 ， 我 们 需 
要 将 状态 设置 为 0 以 忘记 旧 状 态 的 的 机 制 。 我 们 希望 神经 网 络 学 会 决定 何 时 清除 状 
态 ， 而 不 是 手动 决定 。 这 就 是 门 控 RNN 要 做 的 事 。 








10.10.1 LSTM 


引入 自 循环 的 巧妙 构思 ， 以 产生 梯度 长 时 间 持 续 流 动 的 路 径 是 初始 长 短期 记忆 
(long short-term memory, LSTM ) 模型 的 核心 贡献 (Hochreiter and Schmidhuber, 
1997)。 其 中 一 个 关键 扩展 是 使 自 循环 的 权重 视 上 下 文 而 定 ， 而 不 是 固定 的 (Gers 
et al., 2000)。 门 探 此 自 循环 〈 由 另 一 个 隐藏 单元 控制 ) 的 权重 ， 累 积 的 时 间 尺 度 可 
以 动态 地 改变 。 在 这 种 情况 下 ， 即 使 是 具有 固定 参数 的 LSTM， 累 积 的 时 间 尺 度 也 
可 以 因 输 入 序列 而 改变 ， 因 为 时 间 常 数 是 模型 本 号 的 输出 。LSTM 已 经 在 许多 应 用 
中 取得 重大 成 功 ， 如 无 约束 手写 识别 (Graves and Schmidhuber, 2009)、 语 音 识别 
(Graves et al., 2013; Graves and Jaitly, 2014)、 手 写 识别 (Graves et al., 2013) 、 机 
arene (Sutskever et al., 2014)、 为 图 像 生成 标题 (Kiros et al., 2014b; Vinyals et al., 
2014b; Xu et al., 2015) 和 解析 (Vinyals et al., 2014a)。 


LSTM 块 如 图 10.16 所 示 。 在 浅 循环 网 络 的 架构 下 ， 相 应 的 前 向 传播 公式 如 下 。 
更 深 的 架构 也 被 成 功 应 用 (Graves et al., 2013; Pascanu et al., 2014a), LSTM 循 
环 网 络 除 了 外 部 的 RNN 循环 外 ， 还 具有 内 部 的 “LSTM 细胞 ”循环 〈 自 环 )， 
此 LSTM 不 是 简单 地 回 输 入 和 循环 单元 的 仿 射 变换 之 后 施加 一 个 逐 元 素 的 非 线性 。 
与 普通 的 循环 网 络 类 似 ， 每 个 单元 有 相同 的 输入 和 输出 ， 但 也 有 更 多 的 参数 和 控制 
信息 流动 的 门 控 单元 系统 。 最 重要 的 组 成 部 分 是 状态 单元 st ， 与 前 一 节 讨论 的 渗 漏 
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output 





self-loop 


input gate forget gate output gate 











图 10.16: LSTM 循环 网 络 “ 细 胞 ”的 框图 。 细 胞 彼此 循环 连接 ， 代 将 一 般 循环 网 络 中 普通 的 隐藏 


单元 。 这 里 使 用 常规 的 人 
态 。 状 态 单 元 具有 线性 









































工 神经 元 计算 输入 特征 。 如 果 sigmoid MATT RIF, 它 的 值 可 以 累加 到 状 
循环 ， 其 权重 由 遗忘 门 控 制 。 细 胞 的 输出 可 以 被 输出 门 关 闭 。 所 有 门 控 单 























元 都 具有 sigmoid 非 线性 ， 而 输入 单元 可 具有 任意 的 压缩 非 线性 。 状 态 单元 也 可 以 用 作 门 控 单 元 
的 额外 输入 。 黑 色 方 块 表示 单个 时 间 步 的 延迟 。 








单元 有 类 似 的 线性 自 环 。 然而， 此 处 自 环 的 权重 (或 相关 联 的 时 间 常 数 ) 由 遗忘 门 





(forget gate) fO #8 
间 的 值 : 





fl (AYA t 和 细胞 i)， 由 sigmoid 单元 将 权重 设置 为 0 和 1 之 





fi aap s fal om oa), (10.40) 











其 中 rO 是 当前 输入 向 量 ，h! 是 当前 隐藏 层 向 量 ， 瑚 包含 所 有 LSTM 细胞 的 输出 。 


b’, Uf, 厂 /分 别 是 偏 置 、 输 入 权重 和 遗忘 门 的 循环 权重 。 因 此 LSTM 细胞 内 部 状态 
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以 如 下 方式 更 新 ， 其 中 有 一 个 条 件 的 自 环 权重 O: 
sP = FO gP ofti + Da (10.41) 
j J 
其 中 b, U, W 分 别 是 LSTM 细胞 中 的 偏 置 、 输 入 权重 和 遗忘 门 的 循环 权重 。 外 部 输 


入 门 (external input gate) 单元 g 以 类 似 遗 忘 门 (使 用 sigmoid 获 得 一 个 0 和 1 之 
AE) 的 方式 更 新 ， 但 有 自身 的 参数 : 





a) =o + Cota? + wg) 10.2 
j J 


LSTM 细胞 的 输出 AO 也 可 以 由 输出 门 (output gate) q? 关闭 (使 用 sigmoid 单 元 
作为 门 控 ): 


h® = tanh(s\)q\, (10.43) 


( 
+ Nw DY ce 
了 j 


其 中 b, U, W 分 别 是 偏 置 、 输 入 权重 和 遗忘 门 的 循环 权重 。 在 这 些 变 体 中 ， 可 以 
选择 使 用 细胞 状态 sO 作为 额外 的 输入 (及 其 权重 )， 输 入 到 第 i 个 单元 的 三 个 门 ， 
如 图 10.16 所 示 。 这 将 需要 三 个 额外 的 参数 。 

LSTM 网 络 比 人 简单 的 循环 架构 更 易于 学 习 长 期 依赖 ， 先 是 用 于 测试 长 期 依 
赖 学 习 能 力 的 人 工 数 据 集 (Bengio et al., 1994b; Hochreiter and Schmidhuber, 1997; 
Hochreiter et al., 2001)， 然 后 是 在 具有 挑战 性 的 序列 处 理 任务 上 获得 最 先进 的 表现 
(Graves, 2012, 2013; Sutskever et al., 2014)。LSTM 的 变 体 和 替代 也 已 经 被 研究 和 
使 用 ， 这 将 在 下 文 进行 讨论 。 





10.10.2 ”其 他 门 控 RNN 





LSTM 架构 中 哪些 部 分 是 真正 必须 的 ? 还 可 以 设计 哪些 其 他 成 功 架 构 允 许 网 络 
动态 地 控制 时 间 尺 度 和 不 同 单元 的 遗忘 行为 ? 

最 近 关 于 门 控 RNN 的 工作 给 出 了 这 些 问 题 的 某 些 答案 , 其 单元 也 被 称 为 门 控 循 
环 单元 或 GRU (Cho et al., 2014c; Chung et al., 2014, 2015a; Jozefowicz et al., 2015; 
Chrupala et al., 2015). = LSTM 的 主要 区 别 是 ， 单 个 门 控 单元 同时 控制 遗忘 因子 
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和 更 新 状态 单元 的 决定 。 更 新 公式 如 下 : 








A =a Mal DY 4 (1 - ul )o(b; +Y Un + > Warf PE) , (10.45) 
J j 





其 中 uK “更 新 ” 门 ， 表示 “复位 ” 门 。 它 们 的 值 就 如 通常 所 定义 的 : 
uP = ofi + DUN +E wal), (10.46) 
j j 
和 
r® =o (0; + ` Ua 十 `> Wi; ni”). (10.47) 
J 了 


复位 和 更 新 门 能 独立 地 “忽略 ”状态 向 量 的 一 部 分 。 更 新 门 像 条 件 活 漏 累 积 器 一 样 可 
以 线性 门 控 任意 维度 ， 从 而 选择 将 它 复制 (在 sigmoid 的 一 个 极端 ) 或 完全 由 新 的 
“目标 状态 ” E ( 朝向 渗 漏 累积 带 的 收敛 方向 ) 蔡 换 并 完全 忽略 它 〈 在 另 一 个 极端 )。 
复位 门 控 制 当 前 状态 中 哪些 部 分 用 于 计算 下 一 个 目标 状态 ， 在 过 去 状态 和 未 来 状态 
之 间 引 入 了 附加 的 非 线 性 效应 。 

围绕 这 一 主题 可 以 设计 更 多 的 变种 。 例 如 复位 门 (或 遗忘 门 ) 的 输出 可 以 在 
多 个 隐藏 单元 间 共 享 。 或 者 ， 全 局 门 的 乘积 ( 覆盖 一 整 组 的 单元 ,例如 整 一 层 ) 和 
一 个 局 部 门 (每 单元 ) 可 用 于 结合 全 局 控制 和 局 部 控制 。 然 而 ， 一 些 调查 发 现 这 
些 LSTM 和 GRU 架构 的 变种 ， 在 广泛 的 任务 中 难以 明显 地 同时 击败 这 两 个 原始 架 
构 (Greff et al., 2015; Jozefowicz et al., 2015). Greff et al. (2015) 发 现 其 中 的 关键 因 
素 是 遗忘 门 , 而 Jozefowicz et al. (2015) 发 现 向 LSTM 遗忘 门 加 入 1 的 偏 置 ( 由 Gers 
et al. (2000) 提倡 ) 能 让 LSTM 变 得 与 已 探索 的 最 佳 变种 一 样 健壮 。 



































10.11 ”优化 长 期 依赖 


我 们 已 经 在 第 8.2.5 节 和 第 10.7 节 中 描述 过 在 许多 时 间 步 上 优化 RNN 时 发 生 
的 梯度 消失 和 爆炸 的 问题 。 

由 Martens and Sutskever (2011) 提出 了 一 个 有 趣 的 想法 是 ,二 阶 导数 可 能 在 一 
阶 导数 消失 的 同时 消失 。 二 阶 优化 算法 可 以 大 致 被 理解 为 将 一 阶 导 数 除 以 二 阶 导数 
(在 更 高 维 数 ， 由 梯度 乘 以 Hessian 的 逆 )。 如 果 二 阶 导 数 与 一 阶 导 数 以 类 似 的 速率 
收缩 ， 那 么 一 阶 和 二 阶 导数 的 比率 可 保持 相对 恒定 。 不 幸 的 是 ， 二 阶 方法 有 许多 缺 
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abe 第 十 章 ”序列 建 模 : 循环 和 递归 网 络 
点 ， 包 括 高 的 计算 成 本 、 需 要 一 个 大 的 小 批量 、 并 且 倾 向 于 被 吸引 到 鞍点 。Martens 


and Sutskever (2011) 发 现 采 用 二 阶 方法 的 不 错 结 果 。 之 后 ，Sutskever et al. (2013) 
发 现 使 用 较 简 单 的 方法 可 以 达到 类 似 的 结果 ， 例 如 经 过 谨慎 初始 化 的 Nesterov 动量 
法 。 更 详细 的 内 容 参 考 Sutskever (2012)。 应 用 于 LSTM 时 ， 这 两 种 方法 在 很 大 程 
度 上 会 被 单纯 的 SGD ( 其 至 没有 动量 ) 取代 。 这 是 机 器 学 习 中 一 个 延续 的 主题 ， 设 
计 一 个 易于 优化 模型 通常 比 设计 出 更 加 强大 的 优化 算法 更 容易 。 





10.11.1 截断 梯度 


如 第 8.2.4 节 讨论 ， 强 非 线 性 函数 ( 如 由 许多 时 间 步 计算 的 循环 网 络 ) 往往 倾向 
于 非常 大 或 非常 小 幅度 的 梯度 。 如 图 8.3 和 图 10.17 所 示 , 我 们 可 以 看 到 ， 目 标 函 数 
(作为 参数 的 函数 ) 存在 一 个 伴随 “ 悬 岩 ” 的“ 地形 ”: 宽 且 相当 平坦 区 域 被 目标 也 
数 变 化 快 的 小 区 域 隔 开 ， 形 成 了 一 种 悬崖 。 

这 导致 的 困难 是 ， 当 参数 梯度 非常 大 时 ， 梯 度 下 降 的 参数 更 新 可 以 将 参数 抛 出 
很 远 ， 进 入 目标 函数 较 大 的 区 域 ， 到 达 当 前 解 所 作 的 努力 变 成 了 无 用 功 。 梯 度 告诉 
我 们 ， 围 绕 当 前 参数 的 无 穷 小 区 域内 最 速 下 降 的 方向 。 这 个 无 穷 小 区 域 之 外 ， 代 价 
函数 可 能 开始 沿 曲线 背面 而 上 。 更 新 必须 被 选择 为 足够 小 ， 以 避免 过 分 穿越 向 上 的 
曲面 。 我 们 通常 使 用 衰减 速度 足够 慢 的 学 习 率 ， 使 连续 的 步骤 具有 大 致 相同 的 学 习 
率 。 适 合 于 一 个 相对 线性 的 地 形 部 分 的 步 长 经 常 在 下 一 步 进 入 地 形 中 更 加 弯曲 的 部 
分 时 变 得 不 适合 ， 会 导致 上 坡 运动 。 

一 个 简单 的 解决 方案 已 被 从 业者 使 用 多 年 : 截断 梯度 (clipping the gradient )。 
此 想法 有 不 同 实例 (Mikolov, 2012; Pascanu et al., 2013a)。 一 种 选择 是 在 参数 更 新 
之 前 ， 逐 元 素 地 截断 小 批量 产生 的 参数 梯度 (Mikolov, 2012)。 另 一 种 是 在 参数 更 新 
之 前 截断 梯度 g 的 范 数 ||g|| (Pascanu et al., 2013a): 














if Iig >v (10.48) 


ga, 10.49 
9 


lall 


其 中 v 是 范 数 上 界 ，9 用 来 更 新 参数 。 因 为 所 有 参数 ( 包括 不 同 的 参数 组 ， 如 权重 
和 偏 置 ) 的 梯度 被 单个 缩放 因子 联合 重 整 化 ， 所 以 后 一 方法 具有 的 优点 是 保证 了 每 
个 步骤 仍然 是 在 梯度 方向 上 的 ， 但 实验 表明 两 种 形式 类 似 。 虽 然 参 数 更 新 与 真实 梯 
度 具有 相同 的 方向 梯度 , 经 过 梯度 范 数 截断 ,参数 更 新 的 向 量 范 数 现在 变 得 有 界 。 这 
种 有 界 梯 度 能 避免 执行 梯度 爆炸 时 的 有 害 一 步 。 事 实 上 ， 当 梯度 大 小 高 于 国 值 时 ， 即 
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Without clipping With clipping 
3 3 
5 5 
w w 
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图 10.17: 梯度 截断 在 有 两 个 参数 w 和 b 的 循环 网 络 中 的 效果 示例 。 梯 度 截 断 可 以 使 梯度 下 降 在 
极 陡峭 的 悬崖 附近 更 合理 地 执行 。 这 些 陡 峭 的 悬崖 通常 发 生 在 循环 网 络 中 , 位 于 循环 网 络 近 似 线性 
的 附近 。 悬 崖 在 时 间 步 的 数量 上 呈 指 数 地 陡峭 ， 因 为 对 于 每 个 时 间 步 ， 权 重 矩 阵 都 自 乘 一 次 。( 左 ) 
没有 梯度 截断 的 梯度 下 降 越 过 这 个 小 峡谷 的 底部 ， 然 后 从 悬崖 面 接收 非常 大 的 梯度 。 大 梯度 灾难 
性 地 将 参数 推 到 图 的 轴 外 。( 右 ) 使 用 梯度 截断 的 梯度 下 降 对 悬崖 的 反应 更 温和 。 当 它 上 升 到 悬崖 
面 时 ， 步 长 受到 限制 ， 使 得 它 不 会 被 推出 靠近 解 的 陡峭 区 域 。 经 Pascanu et al. (2013a) 许可 改编 
此 图 。 





















































使 是 采取 简单 的 随机 步骤 往往 工作 得 几乎 一 样 好 。 如 果 爆 炸 非常 严重 ， 梯 度数 值 上 
为 Int 或 Nan〈 无 穷 大 或 不 是 一 个 数字 )， 则 可 以 采取 大 小 为 v 的 随机 一 步 ， 通 常 
会 离开 数值 不 稳定 的 状态 。 截 断 每 小 批量 梯度 范 数 不 会 改变 单个 小 批量 的 梯度 方向 。 
然而 ， 许 多 小 批量 使 用 范 数 截断 梯度 后 的 平均 值 不 等 同 于 截断 真实 梯度 〈 使 用 所 有 
的 实例 所 形成 的 梯度 ) 的 范 数 。 大 导数 范 数 的 样本 ， 和 像 这 样 的 出 现在 同一 小 批量 的 
样本 ， 其 对 最 终 方向 的 贡献 将 消失 。 不 像 传统 小 批量 梯度 下 降 ， 其 中 真实 梯度 的 方 
向 是 等 于 所 有 小 批量 梯度 的 平均 。 换 句 话 说， 传统 的 随机 梯度 下 降 使 用 梯度 的 无 偏 
估计 ， 而 与 使 用 范 数 截断 的 梯度 下 降 引 入 了 经 验 上 是 有 用 的 启发 式 偏 置 。 通 过 逐 元 
素 截 断 ， 更 新 的 方向 与 真实 梯度 或 小 批量 的 梯度 不 再 对 齐 ， 但 是 它 仍 然 是 一 个 下 降 
方向 。 还 有 学 者 提出 (Graves, 2013) 〈 相对 于 隐藏 单元 ) 截断 反 向 传播 梯度 ,但 没有 
公布 与 这 些 变种 之 间 的 比较 ; 我 们 推测 ， 所 有 这 些 方法 表现 类 似 。 
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10.11.2 引导 信息 流 的 正则 化 


梯度 截断 有 助 于 处 理 爆 炸 的 梯度 ， 但 它 无 助 于 消失 的 梯度 。 为 了 解决 消失 的 梯 
度 问题 并 更 好 地 捕获 长 期 依赖 ,我们 讨论 了 如 下 想法 : 在 展开 循环 架构 的 计算 图 中 ， 
沿 着 与 弧度 相关 联 的 梯度 乘积 接近 1 的 部 分 创建 路 径 。 在 第 10.10 节 中 已 经 讨论 过 ， 
实现 这 一 点 的 一 种 方法 是 使 用 LSTM 以 及 其 他 自 循环 和 门 控 机 制 。 另 一 个 想法 是 正 
则 化 或 约束 参数 ， 以 引导 “信息 流 ”。 特 别 是 即使 损失 函数 只 对 序列 尾部 的 输出 作 惩 
罚 ， 我 们 也 希望 梯度 向 量 Vro L 在 反 回 传播 时 能 维持 其 幅度 。 形 式 上 ， 我 们 要 使 











Oh 
Vel) pI (10.50) 
& 
VoL (10.51) 


一 样 大 。 在 这 个 目标 下 ，Pascanu et al. (2013a) 提出 以 下 正则 项 : 


[Vro n2 


2 
ant 
Q= 1$. (10.52) 
>( [Vw ) 


计算 这 一 梯度 的 正则 项 可 能 会 出 现 困难 ,但 Pascanu et al. (2013a) 提出 可 以 将 后 向 
传播 向 量 Viw 工 考虑 为 恒 值 作为 近似 (为 了 计算 正则 化 的 目的 ， 没 有 必要 通过 它们 
向 后 传播 )。 使 用 该 正则 项 的 实验 表明 ， 如 果 与 标准 的 启发 式 截 断 ( 处 理 梯 度 爆 炸 ) 
相 结合 ， 该 正则 项 可 以 显著 地 增加 RNN 可 以 学 习 的 依赖 跨度 。 梯 度 截 断 特 别 重要 ， 
因为 它 保持 了 爆炸 梯度 边缘 的 RNN 动态 。 如 果 没 有 梯度 截断 ,梯度 爆炸 将 阻碍 学 习 
的 成 功 。 

这 种 方法 的 一 个 主要 弱点 是 ， 在 处 理 数据 元 余 的 任务 时 如 语言 模型 ， 它 并 不 
像 LSTM 一 样 有 效 。 











10.12 “外 显 记 忆 


智能 需要 知识 并 且 可 以 通过 学 习 获 取 知 识 ， 这 已 促使 大 型 深度 架构 的 发 展 。 然 
而 ， 知 识 是 不 同 的 并 且 种 类 繁多 。 有 些 知识 是 隐 含 的 、 浴 意识 的 并 且 难 以 用 语言 
达 一 一 比如 怎么 行走 或 狗 与 猫 的 样子 有 什么 不 同 。 其 他 知识 可 以 是 明确 的 、 可 陈述 
的 以 及 可 以 相对 简单 地 使 用 词语 表达 一 一 每 天 常识 性 的 知识 ， 如 “ 猫 是 一 种 动物 ”， 
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或 者 为 实现 自己 当前 目标 所 需 知 道 的 非常 具体 的 事实 ， 如 “与 销售 团队 会 议 在 141 
室 于 下 午 3:00 开始 ”。 

神经 网 络 擅长 存储 隐 性 知识 ， 但 是 他 们 很 难 记 住 事 实 。 被 存储 在 神经 网 络 参 数 
中 之 前 ， 随 机 梯度 下 降 需 要 多 次 提供 相同 的 输入 ， 即 使 如 此 ， 该 输入 也 不 会 被 特 
别 精确 地 存储 。Graves et al. (2014) 推测 这 是 因为 神经 网 络 缺 乏 工作 存储 (working 
memory) 系统 ， 即 类 似 人 类 为 实现 一 些 目标 而 明确 保存 和 操作 相关 信息 片段 的 系统 。 
这 种 外 显 记 忆 组 件 将 使 我 们 的 系统 不 仅 能 够 快速 “故意 ”地 存储 和 检索 具体 的 事实 ， 
也 能 利用 他 们 循序 推论 。 神 经 网 络 处 理 序列 信息 的 需要 ， 改 变 了 每 个 步骤 向 网 络 注 
人 输入 的 方式 ， 长 期 以 来 推理 能 力 被 认为 是 重要 的 ， 而 不 是 对 输入 做 出 自动 的 、 直 
观 的 反应 (Hinton, 1990) 。 

为 了 解决 这 一 难题 ，Weston et al. (2014) 引入 了 记忆 网 络 (memory network ), 
其 中 包括 一 组 可 以 通过 寻 址 机 制 来 访问 的 记忆 单元 。 记 忆 网 络 原 本 需要 监督 信和 号 
指示 他 们 如 何 使 用 自己 的 记忆 单元 。Graves et al. (2014) 引入 的 神经 网 络 图 灵机 
(neural Turing machine )， 不 需要 明确 的 监督 指示 采取 哪些 行动 而 能 学 习 从 记忆 单 
元 读 写 任意 内 容 ， 并 通过 使 用 基于 内 容 的 软 注 意 机 制 ( 见 Bahdanau et al. (2015) 
和 第 12.4.5.1 节 )， 人 允许 端 到 端的 训练 。 这 种 软 寻 址 机 制 已 成 为 其 他 允许 基于 梯度 优 
化 的 模拟 算法 机 制 的 相关 架构 的 标准 (Sukhbaatar et al., 2015; Joulin and Mikolov, 
2015; Kumar et al., 2015a; Vinyals et al., 2015a; Grefenstette et al., 2015). 


每 个 记忆 单元 可 以 被 认为 是 LSTM 和 GRU 中 记忆 单元 的 扩展 。 不 同 的 是 ， 网 
络 输出 一 个 内 部 状态 来 选择 从 哪个 单元 读 取 或 写 入 ， 正 如 数字 计算 机 读 取 或 写 人 到 
特定 地 址 的 内 存 访问 。 

产生 确切 整数 地 址 的 函数 很 难 优 化 。 为 了 缓解 这 一 问题 ，NTM 实际 同时 从 多 个 
记忆 单元 写 入 或 读 取 。 读 取 时 ， 它 们 采取 许多 单元 的 加 权 平 均值 。 写 入 时 ， 他 们 对 
多 个 单元 修改 不 同 的 数值 。 用 于 这 些 操 作 的 系数 被 选择 为 集中 在 一 个 小 数目 的 单元 ， 
如 通过 softmax 函数 产生 它们 。 使 用 这 些 具 有 非 零 导 数 的 权重 允许 函数 控制 访问 存 
储 器 ， 从 而 能 使 用 梯度 下 降 法 优化 。 关 于 这 些 系数 的 梯度 指示 着 其 中 每 个 参数 是 应 
该 增加 还 是 减少 ， 但 梯度 通常 只 在 接收 大 系数 的 存储 器 地 址 上 变 大 。 

这 些 记忆 单元 通常 扩充 为 包含 向 量 ， 而 不 是 由 LSTM 或 GRU 存储 单元 所 存 
储 的 单个 标量 。 增 加 记忆 单元 大 小 的 原因 有 两 个 。 原 因 之 一 是 ,我 们 已 经 增加 了 访 
问 记 忆 单 元 的 成 本 。 我 们 为 产生 用 于 许多 单元 的 系数 付出 计算 成 本 ， 但 我 们 预期 这 
些 系数 聚集 在 周围 小 数目 的 单元 。 通 过 读 取 向 量 值 ， 而 不 是 一 个 标量 ， 我 们 可 以 抵 
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消 部 分 成 本 。 使 用 向 量 值 的 记忆 单元 的 另 一 个 原因 是 ， 它 们 允许 基于 内 容 的 寻 址 
(content-based addressing)， 其 中 从 一 个 单元 读 或 写 的 权重 是 该 单元 的 函数 。 如 果 我 
们 能 够 生产 符合 某 些 但 并 非 所 有 元 素 的 模式 ， 向 量 值 单元 允许 我 们 检索 一 个 完整 向 
量 值 的 记忆 。 这 类 似 于 人 们 能 够 通过 几 个 歌词 回忆 起 一 首 歌 曲 的 方式 。 我 们 可 以 认 
为 基于 内 容 的 读 取 指令 是 说 ,“ 检 索 一 首 副 歌 歌词 中 带 有 ’ 我 们 都 住 在 黄色 潜水 艇 ' 的 
歌 "。 当 我 们 要 检索 的 对 象 很 大 时 ， 基 于 内 容 的 寻 址 更 为 有 用 一 一 如 果 歌 曲 的 每 一 个 
字母 被 存储 在 单独 的 记忆 单元 中 , 我 们 将 无 法 通过 这 种 方式 找到 他 们 。 通 过 比较 , 基 
于 位 置 的 寻 址 (location-based addressing) 不 允许 引用 存储 器 的 内 容 。 我 们 可 以 认为 
基于 位 置 的 读 取 指令 是 说 “检索 347 档 的 歌 的 歌词 ”。 即 使 当 存 储 单元 很 小 时 ， 基 于 
位 置 的 寻 址 通常 也 是 完全 合理 的 机 制 。 

如 果 一 个 存储 单元 的 内 容 在 大 多 数 时 间 步 上 会 被 复制 (不 被 忘记 )， 则 它 包含 的 
言 息 可 以 在 时 间 上 问 前 传播 ， 随 时 间 问 后 传播 的 梯度 也 不 会 消失 或 爆炸 。 
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图 10.18: 具有 外 显 记忆 网 络 的 示意 图 ， 具 备 神经 网 络 图 灵机 的 一 些 关 键 设计 元 素 。 在 此 图 中 ,我 
们 将 模型 的 “表示 ”部 分 (“任务 网 络 ”", 这 里 是 底部 的 循环 网 络 ) 与 存储 事实 的 模型 ( 记忆 单元 的 
集合 ) 的 “存储 器 ”部 分 区 分 开 。 任 务 网 络 学 习 “ 控 制 ” 存储器 ， 决 定 从 哪 读 取 以 及 在 哪 写 和 人 ( 通 
过 读 取 和 写 人 机 制 ， 由 指向 读 取 和 写 人 地 址 的 粗 箭头 指示 )。 









































外 显 记忆 的 方法 在 图 10.18 说 明 ， 其 中 我 们 可 以 看 到 与 存储 器 耦 接 的 “任务 神 
经 网 络 "。 虽 然 这 一 任务 神经 网 络 可 以 是 前 馈 或 循环 的 ， 但 整个 系统 是 一 个 循环 网 
络 。 任 务 网 络 可 以 选择 读 取 或 写 入 的 特定 内 存 地 址 。 外 显 记忆 似乎 允许 模型 学 习 普 
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ii RNN 或 LSTM RNN 不 能 学 习 的 任务 。 这 种 优点 的 一 个 原因 可 能 是 因为 信息 和 梯 
度 可 以 在 非常 长 的 持续 时 间 内 传播 (分别 在 时 间 上 向 前 或 向 后 )。 

作为 存储 器 单元 的 加 权 平 均值 反 向 传播 的 替代 ， 我 们 可 以 将 存储 器 寻 址 系数 解 
释 为 概率 ， 并 随机 从 一 个 单元 读 取 (Zaremba and Sutskever, 2015)。 优 化 离散 决策 
的 模型 需要 专门 的 优化 算法 ,这 将 在 第 20.9.1 节 中 描述 。 目 前 为 止 ， 训练 这 些 做 离散 
决策 的 随机 架构 ， 仍 比 训练 进行 软 判决 的 确定 性 算法 更 难 。 

无 论 是 软 ( 允许 反 向 传播 ) 或 随机 硬性 的 ， 用 于 选择 一 个 地 址 的 机 制 与 先前 
在 机 器 翻译 的 背景 下 引入 的 注意 力 机 制 形式 相同 (Bahdanau et al., 2015)， 这 在 
第 12.4.5.1 节 中 也 有 讨论 。 甚 至 更 早 之 前 ， 注 意 力 机 制 的 想法 就 被 引入 了 神经 网 络 ， 
在 手写 生成 的 情况 下 (Graves, 2013) ， 有 一 个 被 约束 为 通过 序列 只 向 前 移动 的 注意 力 
机 制 。 在 机 器 翻译 和 记忆 网 络 的 情况 下 ， 每 个 步骤 中 关注 的 焦点 可 以 移动 到 一 个 完 
全 不 同 的 地 方 ( 相 比 之 前 的 步骤 )。 

循环 神经 网 络 提 供 了 将 深度 学 习 扩 展 到 序列 数据 的 一 种 方法 。 它 们 是 我 们 的 深 
度 学 习 工 具 箱 中 最 后 一 个 主要 的 工具 。 现 在 我 们 的 讨论 将 转移 到 如 何 选 择 和 使 用 这 
些 工 具 ， 以 及 如 何在 真实 世界 的 任务 中 应 用 这 些 工 具 。 
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要 成 功 地 使 用 深度 学 习 技术 ， 仅 仅 知 道 存 在 哪些 算法 和 解释 他 们 为 何 有 效 的 原 
理 是 不 够 的 。 一 个 优秀 的 机 器 学 习 实 践 者 还 需要 知道 如 何 针对 具体 应 用 挑选 一 个 合 
适 的 算法 以 及 如 何 监控 ， 并 根据 实验 反馈 改进 机 器 学 习 系 统 。 在 机 器 学 习 系统 的 日 
常 开 发 中 ， 实 践 者 需要 决定 是 否 收集 更 多 的 数据 、 增 加 或 减少 模型 容量 、 添 加 或 删 
除 正则 化 项 、 改 进 模型 的 优化 、 改 进 模型 的 近似 推断 或 调试 模型 的 软件 实现 。 尝 试 
这 些 操作 都 需要 大 量 时 间 ， 因 此 确定 正确 做 法 ， 而 不 盲目 猜测 尤为 重要 的 。 

本 书 的 大 部 分 内 容 都 是 关于 不 同 的 机 器 学 习 模 型 、 训 练 算法 和 目标 函数 。 这 可 
能 给 人 一 种 印象 一 一 成 为 机 器 学 习 专 家 的 最 重要 因素 是 了 解 各 种 各 样 的 机 器 学 习 技 
AR, 并 熟悉 各 种 不 同 的 数学 。 在 实践 中 , 正确 使 用 一 个 普通 算法 通常 比 草 率 地 使 用 一 
个 不 清楚 的 算法 效果 更 好 。 正 确 应 用 一 个 算法 需要 掌握 一 些 相当 简单 的 方法 论 。 本 
章 的 许多 建议 都 来 自 Ng (2015). 

我 们 建议 参考 以 下 几 个 实践 设计 流程 : 

















。 确定 目标 一 一 使 用 什么 样 的 误差 度量 ， 并 为 此 误差 度量 指定 目标 值 。 这 些 目标 
和 误差 度量 取决 于 该 应 用 旨 在 解决 的 问题 。 


。 尺 快 建立 一 个 端 到 端的 的 工作 流程 ， 包 括 佑 计 合 适 的 性 能 度量 。 

。 搭建 系统 ， 并 确定 性 能 瓶 贷 。 检 查 哪个 部 分 的 性 能 差 于 预期 ， 以 及 是 否 是 因 
为 过 拟 合 、 欠 拟 合 ,或 者 数据 或 软件 缺陷 造成 的 。 

o 根据 具体 观察 反复 地 进行 增 量 式 的 改动 ， 如 收集 新 数据 、 调 整 超 参数 或 改进 算 





我 们 将 使 用 街景 地 址 号 码 转录 系统 (Goodfellow et al., 2014d) 作为 一 个 运行 示 
例 。 该 应 用 的 目标 是 将 建筑 物 添加 到 谷歌 地 图 。 街 景 车 拍摄 建筑 物 ， 并 记录 与 每 张 
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建筑 照片 相关 的 GPS 坐标 。 卷 积 网 络 识别 每 张 照片 上 的 地 址 号 码 ， 由 谷歌 地 图 数据 
库 在 正确 的 位 置 添加 该 地 址 。 这 个 商业 应 用 是 一 个 很 好 的 示例 ， 它 的 开发 流程 遵循 
我 们 倡导 的 设计 方法 。 

我 们 现在 描述 这 个 过 程 中 的 每 一 个 步 又 。 











11.1 ”性 能 度量 


确定 目标 ， 即 使 用 什么 误差 度量 ， 是 必要 的 第 一 步 ， 因 为 误差 度量 将 指导 接 下 
来 的 所 有 工作 。 同 时 我 们 也 应 该 了 解 大 概 能 得 到 什么 级 别 的 目标 性 能 。 

值得 注意 的 是 对 于 大 多 数 应 用 而 言 ， 不 可 能 实现 绝对 零 误差 。 即 使 你 有 无 限 的 
训练 数据 ， 并 且 恢复 了 真正 的 概率 分 布 ， 贝 叶 斯 误差 仍 定义 了 能 达到 的 最 小 错误 率 。 
这 是 因为 输入 特征 可 能 无 法 包含 输出 变量 的 完整 信息 ， 或 是 因为 系统 可 能 本 质 上 是 
随机 的 。 当 然 我 们 还 会 受 限 于 有 限 的 训练 数据 。 

训练 数据 的 数量 会 因为 各 种 原因 受到 限制 。 当 目标 是 打造 现实 世界 中 最 好 的 产 
品 或 服务 时 , 我 们 通常 需要 收集 更 多 的 数据 , 但 必须 确定 进一步 减少 误差 的 价值 ,并 
与 收集 更 多 数据 的 成 本 做 权衡 。 数 据 收集 会 耗费 时 间 、 金 钱 ， 或 带 来 人 体 痛 苗 ( 例 
如 ,收集 人 体 医 疗 测 试 数据 )。 科研 中 ， 目 标 通常 是 在 某 个 确定 基准 下 探讨 哪个 算法 
更 好 ， 一般 会 固定 训练 集 ， 不 允许 收集 更 多 的 数据 。 

如 何 确定 合理 的 性 能 期 望 ? 在 学 术 界 ， 通 常 我 们 可 以 根据 先前 公布 的 基准 结 
来 估计 预期 错误 率 。 在 现实 世界 中 ， 一 个 应 用 的 错误 率 有 必要 是 安全 的 、 具 有 成 本 
效益 的 或 吸引 消费 者 的 。 一 旦 你 确定 了 想 要 达到 的 错误 率 ， 那 么 你 的 设计 将 由 如 何 
达到 这 个 错误 率 来 指导 。 

除了 需要 考虑 性 能 度量 之 外 ， 男 一 个 需要 考虑 的 是 度量 的 选择 。 我 们 有 几 种 不 
同 的 性 能 度量 ， 可 以 用 来 度量 一 个 含有 机 顺 学 习 组 件 的 完整 应 用 的 有 效 性 。 这 些 性 
能 度量 通常 不 同 于 训练 模型 的 代价 函数 。 如 第 5.1.2 节 所 述 ， 我 们 通常 会 度量 一 个 系 
统 的 准确 率 ， 或 等 价 地 ， 错 误 率 。 

然而 ， 许 多 应 用 需要 更 高 级 的 度量 。 

有 时 ,一 种 错误 可 能 会 比 男 一 种 错误 更 严重 。 例 如 ， 垃 圾 邮件 检测 系统 会 有 两 
种 错误 : 将 正常 邮件 错误 地 归 为 垃圾 邮件 ， 将 垃圾 邮件 错误 地 归 为 正常 邮件 。 阻 止 
正常 消息 比 允 许可 疑 消息 通过 粮 糕 得 多 。 我 们 希望 度量 某 种 形式 的 总 代价 ， 其 中 拦 
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截 正 常 邮件 比 允许 垃圾 邮件 通过 的 代价 更 高 ， 而 不 是 度量 垃圾 邮件 分 类 的 错误 率 。 
有 时 ， 我 们 需要 训练 检测 某 些 罕见 事件 的 二 元 分 类 器 。 例 如 ， 我 们 可 能 会 为 一 
种 罕见 疾病 设计 医疗 测试 。 假 设 每 一 百 万 人 中 只 有 一 人 患 病 。 我 们 只 需要 让 分 类 器 
一 直 报 告 没有 患者 ， 就 能 轻易 地 在 检测 任务 上 实现 99.9999% 的 正确 率 。 显 然 ， 正 确 
率 很 难 描述 这 种 系统 的 性 能 。 解 决 这 个 问题 的 方法 是 度量 精度 ( precision ) 和 召回 
率 ( recall )。 精 度 是 模型 报告 的 检测 是 正确 的 比率 ， 而 召回 率 则 是 真实 事件 被 检测 
到 的 比率 。 检 测 器 永远 报告 没有 患者 ， 会 得 到 一 个 完美 的 精度 ， 但 召回 率 为 零 。 而 
报告 每 个 人 都 是 患者 的 检测 器 会 得 到 一 个 完美 的 召回 率 , 但 是 精度 会 等 于 人 群 中 患 
有 该 病 的 比例 (在 我 们 的 例子 是 0.0001%， 每 一 百 万 人 只 有 一 人 患 病 )。 当 使 用 精 
度 和 召回 率 时 ， 我 们 通常 会 画 PR 曲线 (PR curve), y 轴 表 示 精 度 ，z HANA 
回 率 。 如 果 检 测 到 的 事件 发 生 了 ， 那 么 分 类 器 会 返回 一 个 较 高 的 得 分 。 例 如 ， 我 们 
将 前 馈 网 络 设计 为 检测 一 种 疾病 ， 估 计 一 个 医疗 结果 由 特征 x 表示 的 人 患 病 的 概率 
为 六 = P = 1 | 四。 每 当 这 个 得 分 超过 某 个 国 值 时 ， 我 们 报告 检测 结果 。 通 过 调 
整 闵 值 ， 我 们 能 权衡 精度 和 召回 率 。 在 很 多 情况 下 ， 我 们 希望 用 一 个 数 而 不 是 曲线 











来 概括 分 类 需 的 性 能 。 要 做 到 这 一 点 ， 我 们 可 以 将 精度 p 和 召回 率 r 转换 为 F 分 数 
( F-score ) 

_ 2p7r 

= (11.1) 


另 一 种 方法 是 报告 PR 曲线 下 方 的 总 面积 。 

在 一 些 应 用 中 ,机 絮 学 习 系 统 可 能 会 拒绝 做 出 判断 。 如 果 机 器 学 习 算 法 能 够 估 
计 所 作 判 断 的 置信 和 度 , 这 将 会 非常 有 用 , 特别 是 在 错误 判断 会 导致 严重 危害 ， 而 人 工 
操作 员 能 够 偶尔 接管 的 情况 下 。 街 景 转录 系统 可 以 作为 这 种 情况 的 一 个 示例 。 这 个 
任务 是 识别 照片 上 的 地 址 号 码 ， 将 照片 拍摄 地 点 对 应 到 地 图 上 的 地 址 。 如 果 地 图 是 
不 精确 的 ， 那 么 地 图 的 价值 会 严重 下 降 。 因 此 只 在 转录 正确 的 情况 下 添加 地 址 十 分 
重要 。 如 果 机 顺 学 习 系统 认为 它 不 太 能 像 人 一 样 正 确 地 转录 ， 那 么 最 好 办 法 当然 是 
让 人 来 转录 照片 。 当 然 ， 只 有 当 机 器 学习 系 统 能 够 大 量 降低 需要 人 工 操作 处 理 的 图 
片 时 ， 它 才 是 有 用 的 。 在 这 种 情况 下 ， 一 种 自然 的 性 能 度量 是 覆盖 (coverage), 4 
盖 是 机 器 学 习 系统 能 够 产生 响应 的 样本 所 占 的 比率 。 我 们 权衡 覆盖 和 精度 。 一 个 系 
统 可 以 通过 拒绝 处 理 任意 样本 的 方式 来 达到 100% 的 精度 ,但 是 覆盖 降 到 了 0%. X 
于 街景 任务 ， 该 项 目的 目标 是 达到 人 类 级 别 的 转录 精度 ， 同 时 保持 95% 的 覆盖 。 在 
这 项 任务 中 ， 人 类 级 别 的 性 能 是 98% 的 精度 。 

还 有 许多 其 他 的 性 能 度量 。 例 如 ， 我 们 可 以 度量 点 击 率 、 收 集 用 户 满意 度 调 查 
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等 等 。 许 多 专业 的 应 用 领域 也 有 特定 的 标准 。 
最 重要 的 是 首先 要 确定 改进 哪个 性 能 度量 ， 然 后 专心 提高 性 能 度量 。 如 果 没 有 
明确 的 目标 ， 那么 我 们 很 难 判 断 机 器 学 习 系 统 上 的 改动 是 否 有 所 改进 。 








11.2 ”默认 的 基准 模型 


确定 性 能 度量 和 目标 后 ， 任 何 实 际 应 用 的 下 一 步 是 尽快 建立 一 个 合理 的 端 到 端 
的 系统 。 本 节 给 出 了 一 些 关于 在 不 同情 况 下 使 用 哪 种 算法 作为 第 一 个 基准 方法 推荐 。 
在 本 节 中 ， 我 们 提供 了 关于 不 同情 况 下 使 用 哪 种 算法 作为 第 一 基准 方法 的 推荐 。 值 
得 注意 的 是 ， 深 度 学 习 研 究 进 展 迅 速 ， 所 以 本 书 出 版 后 很 快 可 能 会 有 更 好 的 默认 算 
法 。 

根据 问题 的 复杂 性 ,项 目 开 始 时 可 能 无 需 使 用 深度 学 习 。 如 果 只 需 正确 地 选择 
几 个 线性 权重 就 可 能 解决 问题 ， 那 么 项 目 可 以 开始 于 一 个 简单 的 统计 模型 ， 如 逻辑 
回归 。 

如 果 问 题 属于 “AI- 完 全 ”类 的 ， 如 对 象 识别 、 语 音 识别 、 机 器 翻译 等 等 ， 那 么 
项 目 开 始 于 一 个 合适 的 深度 学 习 模 型 效果 会 比较 好 。 

首先 ， 根 据 数据 的 结构 选择 一 类 合适 的 模型 。 如 果 项 目 是 以 固定 大 小 的 向 量 作 
为 输入 的 监督 学 习 ， 那 么 可 以 使 用 全 连接 的 前 馈 网 络 。 如 果 输 入 有 已 知 的 拓扑 结构 
(例如 ， 输 入 是 图 像 )， 那 么 可 以 使 用 卷 积 网 络 。 在 这 些 情 况 下 ， 刚 开始 可 以 使 用 某 
些 分 段 线性 单元 (ReLU 或 者 其 扩展 ， 如 Leaky ReLU, PReLU 和 maxout )。 如 果 输 
和 人 或 输出 是 一 个 序列 ， 可 以 使 用 门 控 循 环 网 络 (LSTM 或 GRU )。 

具有 衰减 学 习 率 以 及 动量 的 SGD 是 优化 算法 一 个 合理 的 选择 (流行 的 衰减 方 
法 有 ， 衰 减 到 固定 最 低 学 习 率 的 线性 衰减 、 指 数 误 减 ， 或 每 次 发 生 验 证 错误 停 沸 时 
将 学 习 率 降低 2 - 10 倍 ， 这 些 衰减 方法 在 不 同 问题 上 好 坏 不 一 )。 男 一 个 非常 合理 
的 选择 是 Adam 算法 。 批 标准 化 对 优化 性 能 有 着 显著 的 影响 ， 特 别 是 对 卷 积 网 络 和 
具有 sigmoid 非 线性 函数 的 网 络 而 言 。 虽 然 在 最 初 的 基准 中 忽略 批 标 准 化 是 合理 的 ， 
然而 当 优化 似乎 出 现 问题 时 ， 应 该 立刻 使 用 批 标准 化 。 

除非 训练 集 包 含 数 千 万 以 及 更 多 的 样本 ， 否 则 项 目 应 该 在 一 开始 就 包含 一 些 
温和 的 正则 化 。 提 前 终止 也 被 普遍 采用 。Dropout 也 是 一 个 很 容易 实现 ， 且 兼容 很 
多 模型 和 训练 算法 的 出 色 正 则 化 项 。 批 标准 化 有 时 也 能 降低 泛 化 误差 ， 此 时 可 以 省 
略 Dropout 步骤， 因为 用 于 标准 化 变量 的 统计 量 估计 本 身 就 存在 噪声 。 
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如 果 我 们 的 任务 和 另 一 个 被 广泛 研究 的 任务 相似 ， 那 么 通过 复制 先前 研究 中 已 
知性 能 良好 的 模型 和 算法 ， 可 能 会 得 到 很 好 的 效果 。 甚 至 可 以 从 该 任务 中 复制 一 个 
训练 好 的 模型 。 例 如 , 通常 会 使 用 在 ImageNet 上 训练 好 的 卷 积 网 络 的 特征 来 解决 其 
他 计算 机 视觉 任务 (Girshick et al., 2015)。 

一 个 常见 问题 是 项 目 开始 时 是 否 使 用 无 监督 学 习 ， 我 们 将 在 第 三 部 分 进一步 探 
讨 这 个 问题 。 这 个 问题 和 特定 领域 有 关 。 在 某 些 领域 ， 比 如 自然 语言 处 理 ， 能 够 大 大 
受益 于 无 监督 学 习 技 术 ， 如 学 习 无 监督 词 般 入。 在 其 他 领域 , 如 计算 机 视觉 , 除非 是 
在 半 监 督 的 设 定 下 (标注 样本 数量 很 人 少 ) (Kingma et al., 2014; Rasmus et al., 2015), 
目前 无 监督 学 习 并 没有 带 来 益处 。 如 果 应 用 所 在 环境 中 ， 无 监督 学 习 被 认为 是 很 重 
要 的 , 那么 将 其 包含 在 第 一 个 端 到 端的 基准 中 。 否则 ， 只 有 在 解决 无 监督 问题 时 , 才 
会 第 一 次 尝试 时 使 用 无 监督 学 习 。 在 发 现 初始 基准 过 拟 合 的 时 候 ， 我 们 可 以 尝试 加 
人 无 监督 学 习 。 











11.3 ”决定 是 否 收集 更 多 数据 


在 建立 第 一 个 端 到 端的 系统 后 ， 就 可 以 度量 算法 性 能 并 决定 如 何 改进 算法 。 许 
多 机 器 学 习 新 手 都 妨 不 住 尝 试 很 多 不 同 的 算法 来 进行 改进 。 然 而 ， 收 集 更 多 的 数据 
往往 比 改 进 学 习 算 法 要 有 用 得 多 。 

怎样 判断 是 否 要 收集 更 多 的 数据 ? 首先， 确定 训练 集 上 的 性 能 是 否 可 接受 。 如 
果 模 型 在 训练 集 上 的 性 能 就 很 差 ， 学 习 算法 都 不 能 在 训练 集 上 学 习 出 良好 的 模型 ， 
那么 就 没 必 要 收集 更 多 的 数据 。 反 之 ， 可 以 尝试 增加 更 多 的 网 络 层 或 每 层 增加 更 多 
的 隐藏 单 元 ， 以 增加 模型 的 规模 。 此 外 ， 也 可 以 尝试 调整 学 习 率 等 超 参 数 的 措施 来 
改进 学 习 算 法 。 如 果 更 大 的 模型 和 仔细 调试 的 优化 算法 效果 不 佳 ， 那 么 问题 可 能 源 
自 训 练 数据 的 质量 。 数 据 可 能 含 太 多 噪声 ， 或 是 可 能 不 包含 预测 输出 所 需 的 正确 输 
入 。 这 意味 着 我 们 需要 重新 开始 ， 收 集 更 干净 的 数据 或 是 收集 特征 更 丰富 的 数据 集 。 

如 果 训 练 集 上 的 性 能 是 可 接受 的 , 那么 我 们 开始 度量 测试 集 上 的 性 能 。 如 果 测 试 
集 上 的 性 能 也 是 可 以 接受 的 , 那么 就 顺利 完成 了 。 如 果 测 试 集 上 的 性 能 比 训练 集 的 要 
差 得 多 ， 那 么 收集 更 多 的 数据 是 最 有 效 的 解决 方案 之 一 。 这 时 主要 的 考虑 是 收集 更 
多 数据 的 代价 和 可 行 性 ， 其 他 方法 降低 测试 误差 的 代价 和 可 行 性 ， 和 增加 数据 数量 
能 否 显著 提升 测试 集 性 能 。 在 拥有 百 万 甚至 上 亿 用 户 的 大 型 网 络 公司 ， 收 集 大 型 数 
据 集 是 可 行 的 ， 并 且 这 样 做 的 成 本 可 能 比 其 他 方法 要 少 很 多 ， 所 以 答案 几乎 总 是 收 
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集 更 多 的 训练 数据 。 例 如 ， 收 集 大 型 标注 数据 集 是 解决 对 象 识别 问题 的 主要 因素 之 
一 。 在 其 他 情况 下 ， 如 医疗 应 用 ,收集 更 多 的 数据 可 能 代价 很 高 或 者 不 可 行 。 一 个 可 
以 替代 的 简单 方法 是 降低 模型 大 小 或 是 改进 正则 化 〈 调 整 超 参 数 ， 如 权重 衰减 系数 ， 
或 是 加 入 正则 化 策略 ， 如 Dropout )。 如 果 调 整 正则 化 超 参数 后 ， 训 练 集 性 能 和 测试 
集 性 能 之 间 的 差距 还 是 不 可 接受 ， 那 么 收集 更 多 的 数据 是 可 取 的 。 

在 决定 是 否 收集 更 多 的 数据 时 ， 也 需要 确定 收集 多 少数 据 。 如 图 5.4 所 示 ， 绘 制 
曲线 显示 训练 集 规模 和 泛 化 误差 之 间 的 关系 是 很 有 帮助 的 。 根 据 走势 延伸 曲线 ， 可 
以 预测 还 需要 多 少 训练 数据 来 达到 一 定 的 性 能 。 通常， 加 入 总 数目 一 小 部 分 的 样本 
不 会 对 泛 化 误差 产生 显著 的 影响 。 因 此 ， 建 议 在 对 数 尺度 上 考虑 训练 集 的 大 小 ， 例 
如 在 后 续 的 实验 中 倍增 样本 数目 。 

如 果 收 集 更 多 的 数据 是 不 可 行 的 ， 那 么 改进 泛 化 误差 的 唯一 方法 是 改进 学 习 算 
法 本 身 。 这 属于 研究 领域 ， 并 非 对 应 用 实践 者 的 建议 。 














11.4 选择 超 参数 


大 部 分 深度 学 习 算 法 都 有 许多 超 参 数 来 控制 不 同方 面 的 算法 表现 。 有 些 超 参 
数 会 影响 算法 运行 的 时 间 和 存储 成 本 。 有 些 超 参数 会 影响 学 习 到 的 模型 质量 ， 以 及 
在 新 输入 上 推断 正确 结果 的 能 

有 两 种 选择 超 参数 的 基本 方法 : 手动 选择 和 自动 选择 。 手 动 选择 超 参 数 需要 了 
解 超 参 数 做 了 些 什么 ， 以 及 机 顺 学 习 模 型 如 何 才能 取得 良好 的 泛 化 。 自 动 选择 超 参 
数 算法 大 大 减少 了 解 这 些 想 法 的 需要 ， 但 它们 往往 需要 更 高 的 计算 成 本 。 








11.4.1 ”手动 调整 超 参数 


手动 设置 超 参数 , 我 们 必须 了 解 超 参 数 、 训 练 误差 、 泛 化 误差 和 计算 资源 ( 内 存 
和 运行 时 间 ) 之 间 的 关系 。 这 需要 切实 了 解 一 个 学 习 算 法 有 效 容量 的 基础 概念 ， 如 
第 五 章 所 描述 的 。 

手动 搜索 超 参数 的 目标 通常 是 最 小 化 受 限 于 运行 时 间 和 内 存 预 算 的 泛 化 误差 。 
我 们 不 去 探讨 如 何 确定 各 种 超 参 数 对 运行 时 间 和 内 存 的 影响 ， 因 为 这 高 度 依赖 于 平 
£s 


Ho 





手动 搜索 超 参 数 的 主要 目标 是 调整 模型 的 有 效 容量 以 匹配 任务 的 复杂 性 。 有 
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效 容量 受 限于 三 个 因素 : 模型 的 表示 容量 、 学 习 算 法 成 功 最 小 化 训练 模型 代价 函数 的 
能 力 以 及 代价 函数 和 训练 过 程 正则 化 模型 的 程度 。 具 有 更 多 网 络 层 ， 每 层 有 更 多 隐 
藏 单元 的 模型 具有 较 高 的 表示 能 力 一 一 能 够 表示 更 复杂 的 函数 。 然 而 ， 如 果 训练 算 
法 不 能 找到 某 个 合适 的 函数 来 最 小 化 训练 代价 ， 或 是 正则 化 项 ( 如 权重 衰减 ) 排除 
了 这 些 合适 的 函数 ， 那 么 即使 模型 的 表达 能 力 较 高 ， 也 不 能 学 习 出 合适 的 函数 。 

当 泛 化 误差 以 某 个 超 参数 为 变量 ， 作 为 函数 绘制 出 来 时 ， 通 常会 表现 为 U 形 曲 
线 ， 如 图 5.3 所 示 。 在 某 个 极端 情况 下 ， 超 参数 对 应 着 低 容 量 ， 并 且 泛 化 误差 由 于 训 
练 误差 较 大 而 很 高 。 这 便 是 欠 拟 合 的 情况 。 另 一 种 极端 情况 ， 超 参数 对 应 着 高 容量 ， 
并 且 泛 化 误差 由 于 训练 误差 和 测试 误差 之 间 的 差距 较 大 而 很 高 。 最 优 的 模型 容量 位 
于 曲线 中 间 的 某 个 位 置 ， 能 够 达到 最 低 可 能 的 泛 化 误差 ， 由 某 个 中 等 的 泛 化 误差 和 
某 个 中 等 的 训练 误差 相 加 构成 。 

对 于 某 些 超 参数 ， 当 超 参 数 数值 太 大 时 ,会 发 生 过 拟 合 。 例 如 中 间 层 隐藏 单元 的 
数量 ,增加 数量 能 提高 模型 的 容量 ， 容 易 发 生 过 拟 合 。 对 于 某 些 超 参数 ， 当 超 参数 数 
值 太 小 时 ， 也 会 发 生 过 拟 合 。 例 如 ， 最 小 的 权重 衰减 系数 允许 为 零 , 此 时 学 习 算法 具 
有 最 大 的 有 效 容量 ， 反 而 容易 过 拟 合 。 

并 非 每 个 超 参数 都 能 对 应 着 完整 的 U 形 曲线 。 很 多 超 参数 是 离散 的 ， 如 中 间 层 
单元 数目 或 是 maxout 单元 中 线性 元 件 的 数目 , 这 种 情况 只 能 沿 曲 线 探索 一 些 点 。 有 
些 超 参数 是 一 值 的 。 通 常 这 些 超 参数 用 来 指定 是 否 使 用 学 习 算法 中 的 一 些 可 选 部 分 ， 
如 预 处 理 步骤 减 去 均值 并 除 以 标准 差 来 标准 化 输入 特征 。 这 些 超 参 数 只 能 探索 曲线 
上 的 两 点 。 其 他 一 些 超 参数 可 能 会 有 最 小 值 或 最 大 值 ， 限 制 其 探索 曲线 的 某 些 部 分 。 
例如 ， 权 重 衰减 系数 最 小 是 零 。 这 意味 着 ,如果 权重 衰减 系数 为 零 时 模型 欠 拟 合 ， 屠 
么 我 们 将 无 法 通过 修改 权重 衰减 系数 探索 过 拟 合 区 域 。 换 言 之 ， 有 些 超 参 数 只 能 减 
少 模型 容量 。 

学 习 率 可 能 是 最 重要 的 超 参数 。 如 果 你 只 有 时 间 调整 一 个 超 参数 ， 那 就 调整 学 
SPR, 相 比 其 他 超 参数 , 它 以 一 种 更 复杂 的 方式 控制 模型 的 有 效 容量 一 一 当 学 习 率 适 
合 优化 问题 时 ， 模 型 的 有 效 容量 最 高 ， 此 时 学 习 率 是 正确 的 ， 既 不 是 特别 大 也 不 是 
寺 别 小 。 学 习 率 关于 训练 误差 具有 U 形 曲 线 ， 如 图 11.1 所 示 。 当 学 习 率 过 大 时 ， 梯 
度 下 降 可 能 会 不 经 意 地 增加 而 非 减少 训练 误差 。 在 理想 化 的 二 次 情况 下 ， 如 果 学 习 
率 是 最 佳 值 的 两 倍 大 时 ， 会 发 生 这 种 情况 (LeCun et al, 1998a)。 当 学 习 率 太 小 ， 训 
练 不 仅 慢 ， 还 有 可 能 永久 停留 在 一 个 很 高 的 训练 误差 。 关 于 这 种 效应 ， 我 们 知之 其 
少 (不 会 发 生 于 一 个 凸 损失 函数 中 )。 
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Training error 
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Learning rate (logarithmic scale) 








图 11.1: 训练 误差 和 学 习 率 之 间 的 典型 关系 。 注 意 当 学 习 率 大 于 最 优 值 时 误差 会 有 显著 的 提升 。 此 
图 针对 固定 的 训练 时 间 ， 越 小 的 学 习 率 有 时 候 可 以 以 一 个 正比 于 学 习 率 减 小 量 的 因素 来 减 慢 训练 
过 程 。 泛 化 误差 也 会 得 到 类 似 的 曲线 ,由 于 正则 项 作用 在 学 习 率 过 大 或 过 小 处 比较 复杂 。 由 于 一 个 
糟糕 的 优化 从 某 种 程度 上 说 可 以 避免 过 拟 合 ， 即 使 是 训练 误差 相同 的 点 也 会 拥有 完全 不 同 的 泛 化 


误差 。 





















































调整 学 习 率 外 的 其 他 参数 时 ， 需 要 同时 监测 训练 误差 和 测试 误差 ， 以 判断 模型 
是 否 过 拟 合 或 欠 拟 合 ， 然 后 适当 调整 其 容量 。 

如 果 训 练 集 错误 率 大 于 目标 错误 率 ， 那 么 只 能 增加 模型 容量 以 改进 模型 。 如 果 
没有 使 用 正则 化 ， 并 且 确 信 优 化 算法 正确 运行 ， 那么 有 必要 添加 更 多 的 网 络 层 或 隐 
藏 单元 。 然 而， 令 人 遗憾 的 是 ， 这 增加 了 模型 的 计算 代价 。 

如 果 测 试 集 错误 率 大 于 目标 错误 率 ， 那 么 可 以 采取 两 个 方法 。 测 试 误差 是 训练 
误差 和 测试 误差 之 间 差 距 与 训练 误差 的 总 和 。 寻 找 最 佳 的 测试 误差 需要 权衡 这 些 数 
值 。 当 训练 误差 较 小 ( 因此 容量 较 大 )， 测 试 误差 主要 取决 于 训练 误差 和 测试 误差 之 
间 的 差距 时 ， 通 常 神经 网 络 效 果 最 好 。 此 时 目标 是 缩小 这 一 差距 ， 使 训练 误差 的 增 
长 速率 不 快 于 差距 减 小 的 速率 。 要 减少 这 个 差距 ， 我 们 可 以 改变 正则 化 超 参 数 ， 以 
减少 有 效 的 模型 容量 ， 如 添加 Dropout 或 权重 衰减 策略 。 通 常 ， 最 佳 性 能 来 自 正 则 
化 得 很 好 的 大 规模 模型 ， 比 如 使 用 Dropout 的 神经 网 络 。 

大 部 分 超 参 数 可 以 通过 推理 其 是 否 增加 或 减少 模型 容量 来 设置 。 部 分 示例 如 
表 11.1 所 示 。 

手动 调整 超 参 数 时 , 不 要 忘记 最 终 目 标 : 提升 测试 集 性 能 。 加 入 正则 化 只 是 实现 
这 个 目标 的 一 种 方法 。 只 要 训练 误差 低 ， 随 时 都 可 以 通过 收集 更 多 的 训练 数据 来 减 
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超 参数 容 量 何 时 | 原因 注意 事项 
增加 
隐藏 单元 数量 增加 增加 隐藏 单元 数量 会 增加 模 | 几乎 模型 每 个 操作 所 需 的 时 
型 的 表示 能 力 间 和 内 存 代价 都 会 随 隐 藏 单 
元 数量 的 增加 而 增加 。 
学 习 率 调 至 最 优 ”| 不 正确 的 学 习 速 率 ， 不 管 是 
太 高 还 是 太 低 都 会 由 于 优化 
失败 而 导致 低 有 效 容量 的 模 
型 。 
卷 积 核 宽度 增加 增加 卷 积 核 宽 度 会 增加 模型 | 较 宽 的 卷 积 核 导 致 较 窗 的 输 
的 参数 数量 。 出 尺寸 ， 除非 使 用 隐 式 零 填 
充 减 少 ah 否则 会 降低 
模型 容量 。 较 宽 的 卷 积 核 需 
要 更 多 的 内 存 存储 参数 ， 
会 增加 运行 时 间 ， 但 较 罕 的 
输 ! ' 会 降低 内 存 代 价 。 
隐 式 零 填充 增加 在 卷 积 之 前 隐 式 添加 零 能 保 | 大 多 数 操作 的 时 间 和 内 存 代 
持 较 大 尺寸 的 表示 。 价 会 增加 。 
权重 衰减 系数 降低 降低 权重 衰减 系数 使 得 模型 
参数 可 以 自由 地 变 大 。 
Dropout 比率 降低 浪 少 地 丢弃 单元 可 以 更 多 地 


少 泛 化 误差 。 实 践 中 能 够 确保 学 习 有 效 的 的 暴力 方法 就 是 不 断 提 
直到 解决 问题 。 这 种 做 法 增加 了 训练 和 推断 的 计算 代价 ， 所 以 只 有 在 拥 


RINK, 








让 单元 彼此 “协力 ”来 适应 训 








表 11.1: 各 种 超 参数 对 模型 容量 的 影响 。 








高 模型 容量 和 训练 


有 足够 资源 时 才 是 可 行 的。 原则 上 ， 这 种 做 法 可 能 会 因为 优化 难度 提高 而 失败 ， 但 


对 于 许多 问题 而 言 ， 优 化 似乎 并 没有 成 为 一 个 显著 的 隐 碍 ， 当 然 ， 前 # 


适 的 模型 。 


11.4.2 


理想 的 学 习 算法 应 
需要 手动 调整 超 参 数 。 


自动 超 参 数 优化 算法 





该 是 只 需 
一 些 流 行 
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提 是 选择 了 合 


要 输入 一 个 数据 集 ， 就 可 以 输出 学 习 的 函数 ， 而 不 
的 学 习 算 法 ， 如 逻辑 回归 和 支持 向 量 机 ， 流 行 的 部 
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分 原因 是 这 类 算法 只 有 一 到 两 个 超 参 数 需要 调整 ， 它 们 也 能 表现 出 不 错 的 性 能 。 有 
些 情况 下 ， 所 需 调 整 的 超 参 数 数量 较 少 时 ， 神 经 网 络 可 以 表现 出 不 错 的 性 能 ; 但 超 
参数 数量 有 几 十 甚至 更 多 时 ， 效 果 会 提升 得 更 加 明显 。 当 使 用 者 有 一 个 很 好 的 初始 
值 ， 例 如 由 在 相同 类 型 的 应 用 和 架构 上 具有 经 验 的 人 确定 初始 值 ， 或 者 使 用 者 在 相 
似 问 题 上 具有 几 个 月 甚至 几 年 的 神经 网 络 超 参 数 调整 经 验 ， 那 么 手动 调整 超 参数 能 
有 很 好 的 效果 。 然 而 ， 对 于 很 多 应 用 而 言 ， 这 些 起 点 都 不 可 用 。 在 这 些 情况 下 ， 自 动 
算法 可 以 找到 合适 的 超 参数 。 

如 果 我 们 仔细 想 想 使 用 者 搜索 学 习 算 法 合适 超 参数 的 方式 ， 我 们 会 意识 到 这 其 
实 是 一 种 优化 : 我 们 在 试图 寻找 超 参数 来 优化 目标 函数 ， 例 如 验证 误差 ， 有 时 还 会 
有 一 些 约束 (如 训练 时 间 ， 内 存 或 识别 时 间 的 预算 )。 因 此 ， 原 则 上 有 可 能 开发 出 封 
装 学 习 算 法 的 超 参 数 优化 (hyperparameter optimization ) 算法 ， 并 选择 其 超 参 数 ， 
从 而 使 用 者 不 需要 指定 学 习 算法 的 超 参数 。 令 人 遗憾 的 是 ， 超 参数 优化 算法 往往 有 
自己 的 超 参数 ， 如 学 习 算法 的 每 个 超 参 数 应 该 被 探索 的 值 的 范围 。 然 而 , 这 些 次 级 超 
参数 通常 很 容易 选择 ， 这 是 说 ， 相 同 的 次 级 超 参 数 能 够 很 多 不 同 的 问题 上 具有 良好 
的 性 能 。 

















11.4.3 ”网 格 搜 索 


当 有 三 个 或 更 少 的 超 参数 时 ,常见 的 超 参 数 搜索 方法 是 网 格 搜索 (grid search )。 
对 于 每 个 超 参 数 ， 使 用 者 选择 一 个 较 小 的 有 限 值 集 去 探索 。 然 后 ， 这 些 超 参数 笛 卡 
尔 乘积 得 到 一 组 组 超 参 数 ， 网 格 搜索 使 用 每 组 超 参 数 训练 模型 。 挑 选 验 证 集 误差 最 
小 的 超 参数 作为 最 好 的 超 参数 。 如 图 11.2 所 示 超 参数 值 的 网 络 。 

应 该 如 何 选择 搜索 集合 的 范围 呢 ? 在 超 参数 是 数值 (有 序 ) 的 情况 下 ， 每 个 列 
表 的 最 小 和 最 大 的 元 素 可 以 基于 先前 相似 实验 的 经 验 保守 地 挑选 出 来 ， 以 确保 最 优 
解 非常 可 能 在 所 选 范围 内 。 通 常 ， 网 格 搜索 大 约会 在 对 数 尺 度 (logarithmic scale ) 
下 挑选 合适 的 值 ， 例 如 ， 一 个 学 习 率 的 取 值 集合 是 {0.1, 0.01, 107°, 10-4, 10-5}， 或 
者 隐藏 单元 数目 的 取 值 集合 {50, 100, 200, 500, 1000, 2000}。 

通常 重复 进行 网 格 搜索 时 ， 效 果 会 最 好 。 例 如 ， 假 设 我 们 在 集合 {-1,0,1} 上 网 
格 搜索 超 参 数 w。 如 果 找 到 的 最 佳 值 是 1， 那 么 说 明 我 们 低估 了 最 优 值 a 所 在 的 范 
围 ， 应 该 改变 搜索 格 点 ,例如 在 集合 {1, 2, 3} 中 搜索 。 如 果 最 佳 值 是 0， 那 么 我 们 不 
妨 通过 细 化 搜索 范围 以 改进 估计 ， 在 集合 {一 0.1, 0, 0.1} 上 进行 网 格 搜索 。 


网 格 搜 索 带 来 的 一 个 明显 问题 是 , 计算 代价 会 随 着 超 参数 数量 呈 指 数 级 增长 。 如 
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图 11.2: 网 格 搜索 和 随机 搜索 的 比较 。 为 了 方便 地 说 明 ， 我 们 只 展示 两 个 超 参数 的 例子 ， 但 是 我 们 
关注 的 问题 中 超 参 数 个 数 通 常会 更 多 。( 左 ) 为 了 实现 网 格 搜索 ， 我 们 为 每 个 超 参 数 提供 了 一 个 值 
的 集合 。 搜 索 算 法 对 每 一 种 在 这 些 集合 的 交叉 积 中 的 超 参 数组 合 进行 训练 。( 右 ) 为 了 实现 随机 搜 
R, 我 们 给 联合 超 参数 赋予 了 一 个 概率 分 布 。 通 常 超 参 数 之 间 是 相互 独立 的 。 常 见 的 这 种 分 布 的 选 
择 是 均匀 分 布 或 者 是 对 数 均匀 ( 从 对 数 均匀 分 布 中 抽样 ， 就 是 对 从 均匀 分 布 中 抽取 的 样本 进行 指 
数 运算 ) 的 。 然 后 这 些 搜索 算法 从 联合 的 超 参数 空间 中 采样 ， 然 后 运行 每 一 个 样本 。 网 格 搜索 和 随 
机 搜索 都 运行 了 验证 集 上 的 误差 并 返回 了 最 优 的 解 。 这 个 图 说 明了 通常 只 有 一 个 超 参数 对 结果 有 
着 重要 的 影响 。 在 这 个 例子 中 ， 只 有 水 平 轴 上 的 超 参 数 对 结果 有 重要 的 作用 。 网 格 搜索 将 大 量 的 计 
算 浪 费 在 了 指数 量 级 的 对 结果 无 影响 的 超 参数 中 ， 相 比 之 下 随机 搜索 几乎 每 次 测试 都 测试 了 对 结 
果 有 影响 的 每 个 超 参数 的 独一无二 的 值 。 此 图 经 Bergstra and Bengio (2011) 允许 转载 。 



























































RA m 个 超 参 数 ， 每 个 最 多 取 nn 个 值 ， 那 么 训练 和 估计 所 需 的 试验 数 将 是 O(nm)。 
我 们 可 以 并 行 地 进行 实验 ， 并 且 并 行 要 求 十 分 宽松 〈 进 行 不 同 搜索 的 机 器 之 间 几 乎 
没有 必要 进行 通信 ) 令 人 遗憾 的 是 ， 由 于 网 格 搜索 指数 级 增长 计算 代价 ， 即 使 是 并 
行 ， 我 们 也 无 法 提供 令 人 满意 的 搜索 规模 。 


11.4.4 ”随机 搜索 
幸运 的 是 ， 有 一 个 替代 网 格 搜索 的 方法 , 并且 编程 简单 ， 使 用 更 方便 ， 能 更 快 地 
收敛 到 超 参 数 的 良好 取 值 ， 随 机 搜索 (Bergstra and Bengio, 2012)。 


随机 搜索 过 程 如 下 。 首先 , 我 们 为 每 个 超 参数 定义 一 个 边缘 分 布 , 例如 , Bernoulli 
分 布 或 范畴 分 布 〈 分 别 对 应 着 二 元 超 参 数 或 离散 超 参 数 )， 或 者 对 数 尺度 上 的 均匀 分 
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布 《 对 应 着 正 实 值 超 参数 )。 例 如 ， 


log_learning rate ~ u(—1,-—5), (11.2) 


learning rate = 10)°6-teamming_rate (11.3) 


HEF u(a, b) 表示 区 间 (a,b) 上 均匀 采样 的 样本 。 类 似 地 ,log_number_of_hidden units 
可 以 从 u(log(50), log(2000)) 上 采样 。 


与 网 格 搜 索 不 同 ， 我 们 不 需要 离散 化 超 参 数 的 值 。 这 允许 我 们 在 一 个 更 大 的 集 
合 上 进行 搜索 ， 而 不 产生 额外 的 计算 代价 。 实 际 上 ， 如 图 11.2 所 示 ， 当 有 几 个 超 参 
数 对 性 能 度量 没有 显著 影响 时 ， 随 机 搜索 相 比 于 网 格 搜索 指数 级 地 高 效 。Bergstra 
and Bengio (2012) 进行 了 详细 的 研究 并 发 现 相 比 于 网 格 搜索 ， 随 机 搜索 能 够 更 快 地 
减 小 验证 集 误差 〈 就 每 个 模型 运行 的 试验 数 而 言 )。 

与 网 格 搜 索 一 样 ， 我 们 通常 会 重复 运行 不 同 版 本 的 随机 搜索 ， 以 基于 前 一 次 运 
行 的 结果 改进 下 一 次 搜索 。 

随机 搜索 能 比 网 格 搜索 更 快 地 找到 良好 超 参数 的 原因 是 ， 没 有 浪费 的 实验 ， 不 
像 网 格 搜索 有 时 会 对 一 个 超 参数 的 两 个 不 同 值 《给 定 其 他 超 参数 值 不 变 ) 给 出 相同 
结果 。 在 网 格 搜索 中 , 其 他 超 参数 将 在 这 两 次 实验 中 拥有 相同 的 值 , 而 在 随机 搜索 中 ， 
它们 通常 会 具有 不 同 的 值 。 因 此 ， 如 果 这 两 个 值 的 变化 所 对 应 的 验证 集 误差 没有 明 
显 区 别 的 话 ， 网 格 搜索 没有 必要 重复 两 个 等 价 的 实验 ， 而 随机 搜索 仍然 会 对 其 他 超 
参数 进行 两 次 独立 地 探索 。 


11.4.5 “基于 模型 的 超 参数 优化 


超 参数 搜索 问题 可 以 转化 为 一 个 优化 问题 。 决策 变量 是 超 参 数 。 优 化 的 代价 是 超 
参数 训练 出 来 的 模型 在 验证 集 上 的 误差 。 在 简化 的 设 定 下 , 可 以 计算 验证 集 上 可 导 误 
差 饵 数 关 于 超 参 数 的 梯度 ， 然 后 我 们 遵循 这 个 梯度 更 新 (Bengio et al., 1999; Bengio, 
2000; Maclaurin et al., 2015)。 令 人 遗憾 的 是 ， 在 大 多 数 实 际 设 定 中 ， 这 个 梯度 是 
不 可 用 的 。 这 可 能 是 因为 其 高 额 的 计算 代价 和 存储 成 本 ， 也 可 能 是 因为 验证 集 误差 
在 超 参 数 上 本 质 上 不 可 导 ， 例 如 超 参数 是 离散 值 的 情况 。 

为 了 弥补 梯度 的 缺失 ， 我 们 可 以 对 验证 集 误 差 建 模 ， 然 后 通过 优化 该 模型 来 
提出 新 的 超 参数 猜想 。 大 部 分 基于 模型 的 超 参数 搜索 算法 ， 都 是 使 用 贝 叶 斯 回归 模 
型 来 估计 每 个 超 参数 的 验证 集 误 差 期 望 和 该 期 望 的 不 确定 性 。 因 此 ， 优 化 涉及 到 探 
R (探索 高 度 不 确定 的 超 参 数 ， 可 能 带 来 显著 的 效果 提升 ， 也 可 能 效果 很 差 ) 和 











wwaibbt.com DODDDDODOD 


dourbz/350DFo 


370 第 十 一 章 ”实践 方法 论 


使 用 (使 用 已 经 确信 效果 不 错 的 超 参数 一 一 通常 是 先前 见 过 的 非常 熟悉 的 超 参数 ) 
之 间 的 权衡 。 关 于 超 参 数 优化 的 最 前 沿 方 法 还 包括 Spearmint (Snoek et al., 2012), 
TPE (Bergstra et al., 2011) 和 SMAC (Hutter et al., 2011). 


目前 ， 我 们 无 法 明确 确定 ， 贝 叶 斯 超 参 数 优化 是 否 是 一 个 能 够 实现 更 好 深度 学 
习 结 果 或 是 能 够 事半功倍 的 成 熟 工具 。 贝 叶 斯 超 参 数 优 化 有 时 表现 得 像 人 类 专家 ， 
能 够 在 有 些 问题 上 取得 很 好 的 效果 ,但 有 时 又 会 在 某 些 问题 上 发 生 灾难 性 的 失误 。 
看 看 它 是 否 适用 于 一 个 特定 的 问题 是 值得 尝试 的 ,但 目前 该 方法 还 不 够 成 熟 或 可 靠 。 
就 像 所 说 的 那样 ， 超 参数 优化 是 一 个 重要 的 研究 领域 ,通常 主要 受 深度 学 习 所 需 驱 
动 ， 但 是 它 不 仅 能 贡献 于 整个 机 器 学 习 领 域 ， 还 能 贡献 于 一 般 的 工程 学 。 

大 部 分 超 参 数 优化 算法 比 随机 搜索 更 复杂 ， 并 且 具 有 一 个 共同 的 缺点 ， 在 它们 
能 够 从 实验 中 提取 任何 信息 之 前 ， 它 们 需要 运行 完整 的 训练 实验 。 相 比 于 人 类 实践 
者 手动 搜索 ， 考 虑 实验 早期 可 以 收集 的 信息 量 ， 这 种 方法 是 相当 低 效 的 ， 因 为 手动 
搜索 通常 可 以 很 早 判 断 出 某 组 超 参数 是 否 是 完全 病态 的 。Swersky et al. (2014) 提出 
了 一 个 可 以 维护 多 个 实验 的 早期 版 本 算法 。 在 不 同 的 时 间 点 ， 超 参数 优化 算法 可 以 
选择 开启 一 个 新 实验 , “冻结 ”正在 和 运行 但 希望 不 大 的 实验 ,或 是 “解冻 ”并 恢复 早 
期 被 冻结 的 ， 但 现在 根据 更 多 信息 后 又 有 希望 的 实验 。 





























11.5 ”调试 策略 


当 一 个 机 器 学 习 系 统 效 果 不 好 时 ， 通 常 很 难 判 断 效 果 不 好 的 原因 是 算法 本 喘 ， 
还 是 算法 实现 错误 。 由 于 各 种 原因 ， 机 天 学 习 系统 很 难 调试 。 

在 大 多 数 情 况 下 ， 我 们 不 能 提前 知道 算法 的 行为 。 事 实 上 ， 使 用 机 融 学 习 的 整 
个 出 发 点 是 ， 它 会 发 现 一 些 我 们 自己 无 法 发 现 的 有 用 行为 。 如 果 我 们 在 一 个 新 的 分 
类 任务 上 训练 一 个 神经 网 络 ， 它 达到 5% 的 测试 误差 ， 我 们 没 法 直接 知道 这 是 期 望 
的 结果 ， 还 是 次 优 的 结 

另 一 个 难点 是 ， 大 部 分 机 器 学 习 模 型 有 多 个 自 适 应 的 部 分 。 如 果 一 个 部 分 失效 
了 ， 其 他 部 分 仍然 可 以 自 适 应 ， 并 获得 大 致 可 接受 的 性 能 。 例 如 ， 假 设 我 们 正在 训 
练 多 层 神经 网 络 ， 其 中 参数 为 权重 W 和 侦 置 pb。 进一步 假设 ， 我 们 单独 手动 实现 了 
每 个 参数 的 梯度 下 降 规 则 。 而 我 们 在 侦 置 更 新 时 犯 了 一 个 错误 : 

















b+ b—-a, (11.4) 
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其 中 a 是 学 习 率 。 这 个 错误 更 新 没有 使 用 梯度 。 它 会 导致 俩 置 在 整个 学 习 中 不 断 变 
为 负 值 ,对 于 一 个 学 习 算 法 来 说 这 显然 是 错误 的 。 然 而 只 是 检查 模型 输出 的 话 , 该 错 
误 可 能 并 不 是 显而易见 的 。 根 据 输入 的 分 布 ， 权 重 可 能 可 以 自 适 应 地 补偿 负 的 偏 置 。 

大 部 分 神经 网 络 的 调试 策略 都 是 解决 这 两 个 难题 的 一 个 或 两 个 。 我 们 可 以 设计 
一 种 足够 简单 的 情况 ， 能 够 提前 得 到 正确 结果 ， 判 断 模型 预测 是 否 与 之 相符 ;我 们 
也 可 以 设计 一 个 测试 ， 独 立 检 查 神经 网 络 实现 的 各 个 部 分 。 

一 些 重要 的 调试 检测 如 下 所 列 。 

可 视 化 计 工 中 模型 的 行为 : 当 训练 模型 检测 图 像 中 的 对 象 时 ， 查 看 一 些 模型 检 
测 到 部 分 重 欠 的 图 像 。 在 训练 语音 生成 模型 时 ,试听 一 些 生 成 的 语音 样本 。 这 似乎 
是 显而易见 的 ， 但 在 实际 中 很 容易 只 注意 量化 性 能 度量 ， 如 准确 率 或 对 数 似 然 。 直 
接 观 察 机 器 学 习 模 型 运行 其 任务 ， 有 助 于 确定 其 达到 的 量化 性 能 数据 是 否 看 上 去 合 
理 。 错 误 评 佑 模型 性 能 可 能 是 最 具 破 坏 性 的 错误 之 一 ， 因 为 它们 会 使 你 在 系统 出 问 
题 时 误 以 为 系统 运行 良好 。 

可 视 化 最 严重 的 错误 : 大 多 数 模型 能 够 输出 运行 任务 时 的 某 种 置信 和 度量 。 例 如， 
基于 softmax 函数 输出 层 的 分 类 噩 给 每 个 类 分 配 一 个 概率 。 因 此 ， 分 配给 最 有 可 能 
的 类 的 概率 给 出 了 模型 在 其 分 类 决定 上 的 置信 估计 值 。 通常， 相 比 于 正确 预测 的 概 
率 最 大 似 然 训练 会 略 有 高 佑 。 但 是 由 于 实际 上 模型 的 较 小 概率 不 太 可 能 对 应 着 正确 
的 标签 ， 因 此 它们 在 一 定 意义 上 还 是 有 些 用 的 。 通 过 查看 训练 集中 很 难 正确 建 模 的 
样本 , 通常 可 以 发 现 该 数据 预 处 理 或 者 标记 方式 的 问题 。 例 如, 街景 转录 系统 原本 有 
个 问题 是 ， 地 址 号 码 检测 系统 会 将 图 像 裁 前 得 过 于 紧密 ， 而 省 略 掉 了 一 些 数字 。 然 
后 转录 网 络 会 给 这 些 图 像 的 正确 答案 分 配 非常 低 的 概率 。 将 图 像 排序 ， 确 定 置 信和 度 
最 高 的 错误 ,显示 系 统 的 裁 脐 有 问题 。 修 改 检测 系统 裁剪 更 宽 的 图 像 ， 从 而 使 整个 
系统 获得 更 好 的 性 能 ,但 是 转录 网 络 需要 能 够 处 理 地 址 号 码 中 位 置 和 范围 更 大 变化 
的 情况 。 

根据 训练 和 测试 误差 检测 软件 : 我 们 往往 很 难 确定 底层 软件 是 否 是 正确 实现 。 
训练 和 测试 误差 能 够 提供 一 些 线索 。 如 果 训 练 误差 较 低 , 但 是 测试 误差 较 高 , 那么 很 
有 可 能 训练 过 程 是 在 正常 运行 ， 但 模型 由 于 算法 原因 过 拟 合 了 。 另 一 种 可 能 是 ， 测 
试 误差 没有 被 正确 地 度量 ， 可 能 是 由 于 训练 后 保存 模型 再 重 载 去 度量 测试 集 时 出 现 
问题 ， 或 者 是 因为 测试 数据 和 训练 数据 预 处 理 的 方式 不 同 。 如 果 训 练 和 测试 误差 都 
很 高 ， 那 么 很 难 确定 是 软件 错误 ， 还 是 由 于 算法 原因 模型 欠 拟 合 。 这 种 情况 需要 进 
一 步 的 测试 ， 如 下 面 所 述 。 
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拟 合 极 小 的 数据 集 : 当 训 练 集 上 有 很 大 的 误差 时 , 我 们 需要 确定 问题 是 真正 的 欠 
拟 合 ， 还 是 软件 错误 。 通 常 ， 即 使 是 小 模型 也 可 以 保证 很 好 地 拟 合 一 个 足够 小 的 数 
据 集 。 例 如 ， 只 有 一 个 样本 的 分 类 数据 可 以 通过 正确 设置 输出 层 的 偏 置 来 拟 合 。 通 
常 ， 如 果 不 能 训练 一 个 分 类 器 来 正确 标注 一 个 单独 的 样本 ， 或 不 能 训练 一 个 自 编码 
器 来 成 功 地 精准 再 现 一 个 单独 的 样本 ， 或 不 能 训练 一 个 生成 模型 来 一 致 地 生成 一 个 
单独 的 样本 ， 那 么 很 有 可 能 是 由 于 软件 错误 阻止 训练 集 上 的 成 功 优化 。 此 测试 可 以 
扩展 到 只 有 少量 样本 的 小 数据 集 上 。 

比较 反 向 传播 导数 和 数值 导数 : 如 果 读 者 正在 使 用 一 个 需要 实现 梯度 计算 的 软 
件 框架 ， 或 者 在 添加 一 个 新 操作 到 求 导 库 中 ， 必 须 定义 它 的 bprop 方法 ， AAR UL 
的 错误 原因 是 没 能 正确 地 实现 梯度 表达 。 验 证 这 些 求 导 正确 性 的 一 种 方法 是 比较 实 
现 的 自动 求 导 和 通过 有限 差 分 ( finite difference ) 计算 的 导数 。 因 为 

P(e) = im FEF 9 A, (11.5) 
我 们 可 以 使 用 小 的 、 有 限 的 e 近似 导数 : 


我 们 可 以 使 用 中 心 差分 ( centered difference ) 提高 近似 的 准确 率 : 
7 _1 
= Tet te 26) (11.7) 
扰动 大 小 e 必须 足够 大 ， 以 确保 该 扰动 不 会 由 于 数值 计算 的 有 限 精度 问题 产生 舍 人 
误差 。 

通常 ， 我 们 会 测试 向 量 值 隙 数 g : R™ 一 R” 的 梯度 或 Jacobian 和 矩阵 。 邻 人 遗憾 
的 是 ， 有 限 差分 只 允许 我 们 每 次 计算 一 个 导数 。 我 们 可 以 使 用 有 限 差分 mm 次 评估 
g 的 所 有 偏 导数 ， 也 可 以 将 该 测试 应 用 于 一 个 新 函数 (在 函数 g 的 输入 输出 都 加 上 
随机 投影 ), 例如 ,我 们 可 以 将 导数 实现 的 测试 用 于 函数 f(x) = wig(vz), HEP u F 
v 是 随机 向 量 。 正 确 计 算 fx) 要 求 能 够 正确 地 通过 g 反 向 传播 ,但 是 使 用 有 限 差 
分 能 够 高 效 地 计算 ， 因 为 f 只 有 一 个 输入 和 一 个 输出 。 通 常 ， 一 个 好 的 方法 是 在 多 
个 久 值 和 ww 值 上 重复 这 个 测试 ， 可 以 减少 测试 忽略 了 垂直 于 随机 投影 的 错误 的 几率 。 
如 果 我 们 可 以 在 复数 上 进行 数值 计算 ， 那 么 使 用 复数 作为 函数 的 输入 会 有 非常 

高 效 的 数值 方法 估算 梯度 (Squire and Trapp, 1998)。 该 方法 基于 如 下 观察 
f(a + ie) = f(x) +ief'(x) + O(€), (11.8) 


fers) = f’(z) + O(e), (11.9) 

















(11.6) 








real( f(x + ie)) = f(x) + O(e*), image( 
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其 中 i = VvV-1。 和 上 面 的 实 值 情况 不 同 ， 这 里 不 存在 消除 影响 ， 因 为 我 们 对 f 在 不 
同 点 上 计算 差分 。 因 此 我 们 可 以 使 用 很 小 的 e， 比 如 e = 10-150， 其 中 误差 O(c?) 对 
所 有 实用 目标 都 是 微不足道 的 。 

监控 激活 函数 值 和 梯度 的 直方 图 : 可 视 化 神经 网 络 在 大 量 训练 迭代 后 (也许 是 
一 个 轮 ) 收集 到 的 激活 函数 值 和 梯度 的 统计 量 往往 是 有 用 的 。 隐 藏 单元 的 预 激活 值 
可 以 告诉 我 们 该 单元 是 否 饮 和， 或 者 它们 饱和 的 频率 如 何 。 例 如 ， 对 于 整流 器 ， 它 
们 多 久 关 一 次 ?是 否 有 单元 一 直 关 闭 ? 对 于 双 曲 正切 单元 而 言 ， 预 激活 绝对 值 的 平 
均值 可 以 告诉 我 们 该 单元 的 饱和 程度 。 在 深度 网 络 中 ,传播 梯 度 的 快速 增长 或 快速 
消失 ， 可 能 会 阻碍 优化 过 程 。 最 后 ， 比 较 参 数 梯度 和 参数 的 量 级 也 是 有 帮助 的 。 正 
如 (Bottou, 2015) 所 建议 的 ， 我 们 希望 参数 在 一 个 小 批量 更 新 中 变化 的 幅度 是 参数 
EME 1% 这 样 的 级 别 ， 而 不 是 50% 或 者 0.001% (这 会 导致 参数 移动 得 太 慢 )。 也 有 
可 能 是 某 些 参数 以 良好 的 步 长 移动 ， 而 男 一 些 停 小。 如 果 数 据 是 稀 玖 的 ( 比如 自然 
语言 )， 有 些 参数 可 能 很 少 更 新 ， 检 测 它们 变化 时 应 该 记 住 这 一 点 。 

最 后 ， 许 多 深度 学 习 算 法 为 每 一 步 产 生 的 结果 提供 了 某 种 保证 。 例 如 ， 在 第 三 
部 分 ， 我 们 将 看 到 一 些 使 用 代数 解决 优化 问题 的 近似 推断 算法 。 通 常 ， 这 些 可 以 通 
过 测试 它们 的 每 个 保证 来 调试 。 某 些 优 化 算法 提供 的 保证 包括 ， 目 标 函 数值 在 算法 
的 迭代 步 中 不 会 增加 ， 某 些 变 量 的 导数 在 算法 的 每 一 步 中 都 是 零 ， 所 有 变量 的 梯度 
在 收敛 时 会 变 为 零 。 通 常 ， 由 于 舍 人 人 误差， 这 些 条 件 不 会 在 数字 计算 机 上 完全 成 立 ， 
因此 调试 测试 应 该 包含 一 些 容 差 参数 。 














11.6 示例: 多 位 数字 识别 


为 了 端 到 端的 说 明 如 何在 实践 中 应 用 我 们 的 设计 方法 论 ， 我 们 从 设计 深度 学 
习 组 件 出 发 ， 简 单 地 介绍 下 街景 转录 系统 。 显 然 , 整个 系统 的 许多 其 他 组 件 ， 如 街景 
车 、 数 据 库 设 施 等 等 ， 也 是 极其 重要 的 。 

从 机 器 学 习 任 务 的 视角 出 发 ， 首 先 这 个 过 程 要 采集 数据 。 街 景 车 收集 原始 数据 ， 
然后 操作 员 手 动 提供 标签 。 转 录 任务 开始 前 有 大 量 的 数据 人 处理 工作 ， 包 括 在 转录 前 
使 用 其 他 机 器 学 习 技 术 探 测 房屋 号 码 。 

转录 项 目 开 始 于 性 能 度量 的 选择 和 对 这 些 度量 的 期 望 值 。 一 个 重要 的 总 原则 是 
度量 的 选择 要 符合 项 目的 业务 目标 。 因 为 地 图 只 有 是 高 准确 率 时 才 有 用 ， 所 以 为 这 
个 项 目 设 置 高 准确 率 的 要 求 非常 重要 。 上 有 具体 地 ， 目 标 是 达到 人 类 水 平 ，98% 的 准确 
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率 。 这 种 程度 的 准确 率 并 不 是 总 能 达到 。 为 了 达到 这 个 级 别 的 准确 率 ， 街 景 转录 系 
统 牺牲 了 覆盖 。 因 此 在 保持 准确 率 98% 的 情况 下 ， 履 盖 成 了 这 个 项 目 优化 的 主要 性 
能 度量 。 随 着 卷 积 网 络 的 改进 ， 我 们 能 够 降低 网 络 拒绝 转录 输入 的 置信 和 度 阔 值 ， 最 
终 超 出 了 履 盖 95% 的 目标 。 

在 选择 量化 目标 后 ， 我 们 推荐 方法 的 下 一 步 是 要 快速 建立 一 个 合理 的 基准 系统 。 
对 于 视觉 任务 而 言 ,基准 系统 是 带 有 整流 线性 单元 的 卷 积 网 络 。 转 录 项 目 开始 于 一 个 
这 样 的 模型 。 当 时 , 使 用 卷 积 网 络 输出 预测 序列 并 不 常见 。 开 始 时 , 我 们 使 用 一 个 尽 
可 能 简单 的 基准 模型 ， 该 模型 输出 层 的 第 一 个 实现 包含 ”个 不 同 的 softmax 单元 来 
预测 ”个 字符 的 序列 。 我 们 使 用 与 训练 分 类 任务 相同 的 方式 来 训练 这 些 softmax 单 
元 ， 独 立地 训练 每 个 softmax 单元 。 

我 们 建议 反复 细 化 这 些 基 准 ， 并 测试 每 个 变化 是 否 都 有 改进 。 街 景 转录 系统 的 
第 一 个 变化 受 激励 于 覆盖 指标 的 理论 理解 和 数据 结构 。 具 体 地 ， 当 输出 序列 的 概率 
低 于 某 个 值 + 即 p(y | xz) < t 时 ， 网 络 拒绝 为 输入 xz 分类。 最 初 ，p(y | x) 的 定义 是 
临时 的 ， 简 单 地 将 所 有 softmax 函数 输出 乘 在 一 起 。 这 促使 我 们 发 展 能 够 真正 计算 
出 合理 对 数 似 然 的 特定 输出 层 和 代价 函数 。 这 种 方法 使 得 样本 拒绝 机 制 更 有 效 。 

IERT, 覆盖 仍 低 于 90%, 但 该 方法 没有 明显 的 理论 问题 了 。 因 此 , 我 们 的 方法 论 
建议 综合 训练 集 和 测试 集 性 能 ， 以 确定 问题 是 否 是 欠 拟 合 或 过 拟 合 。 在 这 种 情况 下 ， 
训练 和 测试 集 误差 几乎 是 一 样 的 。 事 实 上 ， 这 个 项 目 进行 得 如 此 顺利 的 主要 原因 是 
有 数 以 千 万 计 的 标注 样本 数据 集 可 用 。 因 为 训练 和 测试 集 的 误差 是 如 此 相似 ， 这 表 
明 要 么 是 这 个 问题 欠 拟 合 ,， 要么 是 训练 数据 的 问题 。 我 们 推荐 的 调试 策略 之 一 是 可 
视 化 模型 最 糟糕 的 错误 。 在 这 种 情况 下 ， 这 意味 着 可 视 化 不 正确 而 模型 给 了 最 高 
信 度 的 训练 集 转录 结果 。 结 果 显 示 ， 主 要 是 输入 图 像 裁剪 得 太 紧 ， 有 些 和 地 址 相关 的 
数字 被 裁剪 操作 除去 了 。 例 如 ， 地 址 “1849” 的 图 片 可 能 裁 切 得 太 紧 ， 只 剩 下 “849” 
是 可 见 的 。 如 果 我 们 花费 几 周 时 间 改 进 确定 裁剪 区 域 的 地 址 号 码 检 测 系 统 的 准确 率 ， 
或 许 也 可 以 解决 这 个 问题 。 与 之 不 同 ,项 目 团队 采取 了 更 实际 的 办 法 ， 简 单 地 系统 
性 扩大 裁剪 区 域 的 宽度 ， 使 其 大 于 地 址 号 码 检测 系统 预测 的 区 域 宽度 。 这 种 单一 改 
变 将 转录 系统 的 履 羡 提高 了 10 个 百分点 。 

最 后 ， 性 能 提升 的 最 后 几 个 百分点 来 自 调整 超 参 数 。 这 主要 包括 在 保持 一 些 计 
算 代价 限制 的 同时 加 大 模型 的 规模 。 因 为 训练 误差 和 测试 误差 保持 几乎 相等 ， 所 以 
明确 表明 性 能 不 足 是 由 欠 拟 合 造成 的 ， 数 据 集 本 身 也 存在 一 些 问题 。 

总 体 来 说 ， 转 录 项 目 是 非常 成 功 的 ， 可 以 比 人 工 速 度 更 快 、 代 价 更 低地 转录 数 
































wwaibbt.com DO000000 


dourbz/350DFo 


11.6 Wl, 多 位 数字 识别 


以 亿 计 的 地 址 。 
我 们 希望 本 章 中 介绍 的 设计 原则 能 带 来 其 他 更 多 类 似 的 成 功 。 
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在 本 章 中 ， 我 们 将 介绍 如 何 使 用 深度 学 习 来 解决 计算 机 视觉 、 语 音 识 别 、 自 然 
语言 处 理 以 及 其 他 商业 领域 中 的 应 用 。 首 先 我 们 将 讨论 在 许多 最 重要 的 AI 应 用 中 所 
需 的 大 规模 神经 网 络 的 实现 。 接 着 ， 我 们 将 回顾 深度 学 习 已 经 成 功 应 用 的 几 个 特定 
领域 。 尺 管 深度 学 习 的 一 个 目标 是 设计 能 够 处 理 各 种 任务 的 算法 ， 然 而 截止 目前 深 
度 学 习 的 应 用 仍然 需要 一 定 程度 的 特 化。 例如 ,计算 机 视觉 中 的 任务 对 每 一 个 样本 
都 需要 处 理 大 量 的 输入 特征 ( 像素 )。 自 然 语言 处 理 任务 的 每 一 个 输入 特征 都 需要 对 
大 量 的 可 能 值 (词汇 表 中 的 词 ) ER, 








12.1 大 规模 深度 学 习 


深度 学 习 的 基本 思想 基于 联结 主义 : 尽管 机 器 学 习 模 型 中 单个 生物 性 的 神经 元 
或 者 说 是 单个 特征 不 是 智能 的 ， 但 是 大 量 的 神经 元 或 者 特征 作用 在 一 起 往往 能 够 表 
现 出 智能 。 我 们 必须 着 重 强调 神经 元 数量 必须 很 大 这 个 事实 。 相 比 20 世纪 80 年 代 ， 
如 今 神 经 网 络 的 精度 以 及 处 理 任 务 的 复杂 度 都 有 一 定 提升 ， 其 中 一 个 关键 的 因素 就 
是 网 络 规模 的 巨大 提升 。 正 如 我 们 在 第 1.2.3 节 中 看 到 的 一 样 ， 在 过 去 的 三 十 年 内 ， 
网 络 规模 是 以 指数 级 的 速度 递增 的 。 然 而 如 今 的 人 工 神 经 网 络 的 规模 也 仅仅 和 昆虫 
的 神经 系统 差不多 。 

由 于 规模 的 大 小 对 于 神经 网 络 来 说 至 关 重 要 ， 因 此 深度 学 习 需 要 高 性 能 的 硬件 
设施 和 软件 实现 。 
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12.1.1 ”快速 的 CPU 实现 


传统 的 神经 网 络 是 用 单 台 机 需 的 CPU 来 训练 的 。 如 今 ， 这 种 做 法 通常 被 视 为 是 
不 可 取 的 。 现 在 ,我们 通常 使 用 GPU 或 者 许多 台 机 器 的 CPU 连接 在 一 起 进行 计 
算 。 在 使 用 这 种 昂贵 配置 之 前 ， 为 论证 CPU 无 法 承担 神经 网 络 所 需 的 巨大 计算 量 ， 
研究 者 们 付出 了 巨大 的 努力 。 

描述 如 何 实现 高 效 的 数值 CPU 代码 已 经 超出 了 本 书 的 讨论 范围 ， 但 是 我 们 在 
这 里 还 是 要 强调 通过 设计 一 些 特定 的 CPU 上 的 操作 可 以 大 大 提升 效率 。 例 如 ， 在 
2011 年 ， 最 好 的 CPU 在 训练 神经 网 络 时 使 用 定点 运算 能 够 比 浮 点 运算 跑 得 更 快 。 
通过 调整 定点 运算 的 实现 方式 ，Vanhoucke et al. (2011) 获得 了 3 售 于 一 个 强 浮 点 
运算 系统 的 速度 。 因 为 各 个 新 型 CPU 都 有 各 自 不 同 的 特性 ， 所 以 有 时 候 采 用 浮 点 
运算 实现 会 更 快 。 一 条 重要 的 准则 就 是 ， 通 过 特殊 设计 的 数值 运算 ， 我 们 可 以 获得 
巨大 的 回报 。 除 了 选择 定点 运算 或 者 浮 点 运算 以 外 ， 其 他 的 策略 还 包括 了 如 通过 优 
化 数据 结构 避免 高 速 缓存 缺失 、 使 用 回 量 指令 等 。 如 果 模 型 规模 不 会 限制 模型 表现 
(不 会 影响 模型 精度 ) 时 ， 机 器 学 习 的 研究 者 们 一 般 忽 略 这 些 实现 的 细节 。 














12.1.2 GPU 实现 


许多 现代 神经 网 络 的 实现 基于 图 形 处 理 器 ( Graphics Processing Unit, GPU )。 
图 形 处 理 器 (GPU ) 最 初 是 为 图 形 应 用 而 开发 的 专用 硬件 组 件 。 视 频 游戏 系统 的 
消费 市 场 刺 激 了 图 形 处 理 硬件 的 发 展 。 它 为 视频 游戏 所 设计 的 特性 也 可 以 使 神经 网 
络 的 计算 受益 。 

视频 游戏 的 泻 染 要 求 许多 操作 能 够 快速 并 行 地 执行 。 环 境 和 角色 模型 通过 一 系 
列 顶 点 的 3D 坐标 确定 。 为 了 将 大 量 的 3D 坐标 转化 为 2D 显示 需 上 的 坐标 ， 显 卡 必 
须 并 行 地 对 许多 顶点 执行 矩阵 乘法 与 除法 。 之 后 ， 显 卡 必 须 并 行 地 在 每 个 像素 上 执 
行 诸多 计算 , 来 确定 每 个 像素 点 的 颜色 。 在 这 两 种 情况 下 ， 计 算 都 是 非常 简单 的 ， 并 
且 不 涉及 CPU 通常 遇 到 的 复杂 的 分 支 运 算 。 例 如 ， 同 一 个 刚体 内 的 每 个 顶点 都 会 乘 
上 相同 的 和 矩阵 ;也 就 是 说 ， 不 需要 通过 if 语句 来 判断 确定 每 个 顶点 需要 乘 哪 个 矩 
阵 。 各 个 计算 过 程 之 间 也 是 完全 相互 独立 的 ， 因 此 能 够 实现 并 行 操作 。 计 算 过 程 还 
涉及 处 理 大量 内 存 缓冲 以 及 描述 每 一 个 需要 被 泻 染 的 对 象 的 纹理 (颜色 模式 ) 的 位 
图 信息 。 总 的 来 说 ， 这 使 显卡 设计 为 拥有 高 度 并 行 特 性 以 及 很 高 的 内 存 带 宽 ， 同 时 
也 付出 了 一 些 代价 ， 如 相 比 传统 的 CPU 更 慢 的 时 钟 速度 以 及 更 弱 的 处 理 分 支 运算 
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与 上 述 的 实时 图 形 算法 相 比 ， 神 经 网 络 算法 所 需要 的 性 能 特性 是 相同 的 。 神 经 
网 络 算法 通常 涉及 大 量 参 数 、 激 活 值 、 梯 度 值 的 缓冲 区 , 其 中 每 个 值 在 每 一 次 训练 迭 
代 中 都 要 被 完全 更 新 。 这 些 缓冲 太 大 ,会 超出 传统 的 桌面 计算 机 的 高 速 缓存 (cache), 
所 以 内 存 带宽 通常 会 成 为 主要 瓶颈 。 相 比 CPU, GPU 一 个 显著 的 优势 是 其 极 高 的 内 
存 带宽 。 神 经 网 络 的 训练 算法 通常 并 不 涉及 大 量 的 分 支 运算 与 复杂 的 控制 指令 ， 所 
以 更 适合 在 GPU 硬件 上 训练 。 由 于 神经 网 络 能 够 被 分 为 多 个 单独 的 “神经 元 ”"， 并 
且 独 立 于 同一 层 内 其 他 神经 元 进行 处 理 ， 所 以 神经 网 络 可 以 从 GPU 的 并 行 特性 中 
受益 菲 浅 。 

GPU 硬件 最 初 专 为 图 形 任 务 而 设计 。 随 着 时 间 的 推移 ，GPU 也 变 得 更 灵活 ， 
允许 定制 的 子 程序 处 理 转 化 顶点 坐标 或 者 计算 像素 颜色 的 任务 。 原 则 上 ，GPU 不 
要 求 这 些 像 素 值 实际 基于 泻 染 任务 。 只 要 将 计算 的 输出 值 作为 像素 值 写 人 缓冲 区 ， 
GPU 就 可 以 用 于 科学 计算 。Steinkrau et al. (2005) 在 GPU 上 实现 了 一 个 两 层 
全 连接 的 神经 网 络 ， 并 获得 了 相对 基于 CPU 的 基准 方法 三 倍 的 加 速 。 不 和 久 以 后 ， 
Chellapilla et al. (2006) 也 论证 了 相同 的 技术 可 以 用 来 加 速 监 督 卷 积 网 络 的 训练 。 

在 通用 GPU 发 布 以 后 ， 使 用 显卡 训练 神经 网 络 的 热度 开始 爆炸 性 地 增长 。 这 
种 通用 GPU 可 以 执行 任意 的 代码 ， 而 并 非 仅 仅 泻 染 子 程序 。NVIDIA 的 CUDA 
编程 语言 使 得 我 们 可 以 用 一 种 像 C 一 样 的 语言 实现 任意 代码 。 由 于 相对 简便 的 编 
程 模型 ， 强 大 的 并 行 能 力 以 及 巨大 的 内 存 带 宽 , 通用 GPU 为 我 们 提供 了 训练 神经 
网 络 的 理想 平台 。 在 它 发 布 以 后 不 久 ， 这 个 平台 就 迅速 被 深度 学 习 的 研究 者 们 所 采 
纳 (Raina et al., 2009b; Ciresan et al., 2010). 

如 何在 通用 GPU 上 写 高 效 的 代码 依然 是 一 个 难题 。 存 GPU 上 获得 良好 表现 
所 需 的 技术 与 CPU 上 的 技术 非常 不 同 。 比 如 说 ， 基 于 CPU 的 良好 代码 通常 被 设 
计 为 尽 可 能 从 高 速 缓存 中 读 取 更 多 的 信息 。 然 而 在 GPU 中 ,， 大 多 数 可 写 内 存 位 置 
并 不 会 被 高 速 缓存 ， 所 以 计算 某 个 值 两 次 往往 会 比 计算 一 次 然后 从 内 存 中 读 取 更 快 。 
GPU 代码 是 天 生 多 线程 的 ， 不 同 线程 之 间 必 须 仔 细 协 调 好 。 例 如 ， 如 果 能 够 把 数 
据 级 联 (coalesced ) 起 来 ,那么 涉及 内 存 的 操作 一 般 会 更 快 。 当 几 个 线程 同时 需要 
读 / 写 一 个 值 时 ， 像 这 样 的 级 联 会 作为 一 次 内 存 操作 出 现 。 不 同 的 GPU 可 能 采用 不 
同 的 级 联 读 / 写 数据 的 方式 。 通常 来 说 ， 如 果 在 n 个 线程 中 , 线程 ; 访问 的 是 第 ;二 7 
处 的 内 存 , 其 中 j 是 2 的 某 个 寡 的 倍数 , 那么 内 存 操作 就 易于 级 联 。 具 体 的 设 定 在 不 
同 的 GPU 型 号 中 有 所 区 别 。GPU 另 一 个 常见 的 设 定 是 使 一 个 组 中 的 所 有 线程 都 同 
时 执行 同一 指令 。 这 意味 着 GPU 难以 执行 分 支 操作 。 线 程 被 分 为 一 个 个 称 作 warp 
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(warp ) 的 小 组 。 在 一 个 warp 中 的 每 一 个 线程 在 每 一 个 循环 中 执行 同一 指令 ， 所 以 
当 同 一 个 warp 中 的 不 同 线程 需要 执行 不 同 的 指令 时 ， 需 要 使 用 串 行 而 非 并 行 的 方 
Zs 

由 于 实现 高 效 GPU 代码 的 困难 性 , 研究 人 员 应 该 组 织 好 他 们 的 工作 流程 ， 避 人 免 
对 每 一 个 新 的 模型 或 算法 都 编写 新 的 GPU 代码 。 通常 来 讲 ， 人 们 会 选择 建立 一 个 包 
含 高 效 操作 ( 如 卷 积 和 甜 阵 乘 法 ) 的 软件 库 解 决 这 个 问题 ， 然 后 再 从 库 中 调用 所 需 
要 的 操作 确定 模型 。 例 如 ， 机 器 学 习 库 Pylearn2 (Goodfellow et al., 2013e) 将 其 所 
有 的 机 需 学 习 算 法 都 通过 调用 Theano (Bergstra et al., 2010c; Bastien et al., 2012a) 
和 cuda-convnet (Krizhevsky, 2010) 所 提供 的 高 性 能 操作 来 指定 。 这 种 分 解 方法 还 
可 以 简化 对 多 种 硬件 的 支持 。 例 如 ， 同 一 个 Theano 程序 可 以 在 CPU 或 者 GPU 上 
运行 ， 而 不 需要 改变 调用 Theano 的 方式 。 其 他 库 如 Tensorflow (Abadi et al., 2015) 
和 Torch (Collobert et al., 2011b) 也 提供 了 类 似 的 功能 。 























12.1.3 ”大 规模 的 分 布 式 实现 


在 许多 情况 下 ， 单 个 机 器 的 计算 资源 是 有 限 的 。 因 此 ， 我 们 希望 把 训练 或 者 推 
断 的 任务 分 挫 到 多 个 机 器 上 进行 。 

分 布 式 的 推断 是 容易 实现 的 ， 因 为 每 一 个 输入 的 样本 都 可 以 在 单独 的 机 器 上 运 
行 。 这 也 被 称 为 数据 并 行 (data parallelism )。 

同样 地 ， 模 型 并 行 ( model parallelism ) 也 是 可 行 的 ,其 中 多 个 机 器 共同 运行 一 
个 数据 点 ， 每 一 个 机 需 负责 模型 的 一 个 部 分 。 对 于 推断 和 训练 ， 这 都 是 可 行 的 。 

在 训练 过 程 中 ， 数 据 并 行 某 种 程度 上 来 说 更 加 困难 对 于 随机 梯度 下 降 的 单 步 来 
说 ， 我 们 可 以 增加 小 批量 的 大 小 ， 但 是 从 优化 性 能 的 角度 来 说 ， 我 们 得 到 的 回报 通 
常 并 不 会 线性 增长 。 使 用 多 个 机 器 并 行 地 计算 多 个 梯度 下 降 步 又 是 一 个 更 好 的 选择 。 
不 幸 的 是 ,梯度 下 降 的 标准 定义 完全 是 一 个 串 行 的 过 程 : 第 t 步 的 梯度 是 第 t 一 1 步 
FASS BY PR 

这 个 问题 可 以 使 用 异步 随机 梯度 下 降 ( Asynchoronous Stochastic Gradient 
Descent ) (Bengio and Bengio, 1996; Recht et al., 2011) 解决 。 在 这 个 方法 中 ， 几 个 
处 理 咒 的 核 共 用 存 有 参数 的 内 存 。 每 一 个 核 在 无 锁 情 况 下 读 取 这 些 参数 并 计算 对 应 
的 梯度 ， 然 后 在 无 锁 状 态 下 更 新 这 些 参数 。 由 于 一 些 核 把 其 他 的 核 所 更 新 的 参数 履 
盖 了 ， 因 此 这 种 方法 减少 了 每 一 步 梯 度 下 降 所 获得 的 平均 提升 。 但 因为 更 新 步 数 的 
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速率 增加 ， 总 体 上 还 是 加 快 了 学 习 过 程 。Dean et al. (2012) 率先 提出 了 多 机 器 无 锁 
的 梯度 下 降 方 法 ， 其 中 参数 是 由 参数 服务 器 ( parameter server ) 管理 而 非 存储 在 共 
用 的 内 存 中 。 分 布 式 的 异步 梯度 下 降 方 法 保留 了 训练 深度 神经 网 络 的 基本 策略 , 并 被 
工业 界 很 多 机 器 学 习 组 所 使 用 (Chilimbi et al., 2014; Wu et al., 2015)。 学 术 界 的 深 
度 学 习 研 究 者 们 通常 无 法 负担 那么 大 规模 的 分 布 式 学 习 系 统 ， 但 是 一 些 研究 仍 关注 
于 如 何在 校园 环境 中 使 用 相对 廉价 的 硬件 系统 构造 分 布 式 网 络 (Coates et al., 2013)。 











12.1.4 ”模型 压缩 


在 许多 商业 应 用 的 机 带 学 习 模型 中 ， 一 个 时 间 和 内 存 开销 较 小 的 推断 算法 比 一 
个 时 间 和 内 存 开销 较 小 的 训练 算法 要 更 为 重要 。 对 于 那些 不 需要 个 性 化 设计 的 应 用 
来 说 ， 我 们 只 需要 一 次 性 的 训练 模型 ， 然 后 它 就 可 以 被 成 千 上 万 的 用 户 使 用 。 在 许 
多 情况 下 ， 相 比 开 发 者 ， 终 端 用 户 的 可 用 资源 往往 更 有 限 。 例 如 ， 开 发 者 们 可 以 使 
用 巨大 的 计算 机 集群 训练 一 个 语音 识别 的 网 络 ， 然 后 将 其 部 署 到 移动 手机 上 。 

减少 推断 所 需 开 销 的 一 个 关键 策略 是 模型 压缩 (model compression ) (Bucilua 
et ol/.,，2006)。 模 型 压缩 的 基本 思想 是 用 一 个 更 小 的 模型 取代 替 原 始 耗 时 的 模型 ， 从 
而 使 得 用 来 存储 与 评估 所 需 的 内 存 与 运行 时 间 更 少 。 

当 原始 模型 的 规模 很 大 ， 且 我 们 需要 防止 过 拟 合 时 ， 模 型 压缩 就 可 以 起 到 作用 。 
在 许多 情况 下 ， 拥 有 最 小 泛 化 误差 的 模型 往往 是 多 个 独立 训练 而 成 的 模型 的 集成 。 
评估 所 有 n 个 集成 成 员 的 成 本 很 高 。 有 时 候 ， 当 单个 模型 很 大 ( 例如， 如果 它 使 
用 Dropout 正则 化 ) 时 ， 其 泛 化 能 力也 会 很 好 。 

这 些 巨大 的 模型 能 够 学 习 到 某 个 函数 f(x)， 但 选用 的 参数 数量 超过 了 任务 所 需 
的 参数 数量 。 只 是 因为 训练 样本 数 是 有 限 的 ， 所 以 模型 的 规模 才 变 得 必要 。 只 要 我 
们 拟 合 了 这 个 函数 f(a), 我 们 就 可 以 通过 将 f 作用 于 随机 采样 点 zx 来 生成 有 无 穷 多 
训练 样本 的 训练 集 。 然 后 ， 我 们 使 用 这 些 样 本 训练 一 个 新 的 更 小 的 模型 ， 使 其 能 够 
在 这 些 点 上 拟 合 f(z)。 为 了 更 加 充分 地 利用 了 这 个 新 的 小 模型 的 容量 ， 最 好 从 类 似 
于 真实 测试 数据 (之 后 将 提供 给 模型 ) 的 分 布 中 采样 z。 这 个 过 程 可 以 通过 损坏 训 
练 样本 或 者 从 原始 训练 数据 训练 的 生成 模型 中 采样 完成 。 

此 外 ， 我 们 还 可 以 仅 在 原始 训练 数据 上 训练 一 个 更 小 的 模型 ， 但 只 是 为 了 复制 
模型 的 其 他 特征 ， 比 如 在 不 正确 的 类 上 的 后 验 分 布 (Hinton et al., 2014, 2015). 
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12.1.5 “动态 结构 


一 般 来 说 ， 加 速 数据 处 理 系统 的 一 种 策略 是 构造 一 个 系统 ， 这 个 系统 用 动态 
结构 (dynamic structure ) 描述 图 中 处 理 输入 的 所 需 计 算 过 程 。 在 给 定 一 个 输入 的 
情况 中 ， 数 据 处 理 系统 可 以 动态 地 决定 运行 神经 网 络 系统 的 哪 一 部 分 。 单 个 神经 网 
络 内 部 同样 也 存在 动态 结构 ， 给 定 输 入 信息 ,决定 特征 〈 隐藏 单元 ) 哪 一 部 分 用 于 
计算 。 这 种 神经 网 络 中 的 动态 结构 有 时 被 称 为 条 件 计算 (conditional computation ) 
(Bengio et al., 2013b,c)。 由 于 模型 结构 许多 部 分 可 能 只 跟 输入 的 一 小 部 分 有 关 ， 只 
计算 那些 需要 的 特征 可 以 起 到 加 速 的 目的 。 

动态 结构 计算 是 一 种 基础 的 计算 机 科学 方法 ， 广 泛 应 用 于 软件 工程 项 目 。 应 用 
于 神经 网 络 的 最 简单 的 动态 结构 基于 决定 神经 网 络 (或 者 其 他 机 器 学 习 模 型 ) 中 的 
哪些 子 集 需 要 应 用 于 特定 的 输入 。 

在 分 类 器 中 加 速 推断 的 可 行 策 略 是 使 用 级 联 (cascade) 的 分 类 器 。 当 目标 是 检 
测 罕 见 对 象 (或 事件 ) 是 否 存在 时 ， 可 以 应 用 级 联 策略 。 要 确定 对 象 是 否 存在 ,我 们 
必须 使 用 具有 高 容量 、 运 行 成 本 高 的 复杂 分 类 器 。 然 而 ,因为 对 象 是 罕见 的 , 我 们 通 
党 可 以 使 用 更 少 的 计算 拒绝 不 包含 对 象 的 输入 。 在 这 些 情 况 下 ， 我 们 可 以 训练 一 序 
列 分 类 器 。 序 列 中 的 第 一 个 分 类 器 具有 低 容 量 ， 训 练 为 具有 高 召回 率 。 换 句 话说 ,他 
们 被 训练 为 确保 对 象 存 在 时 ， 我 们 不 会 错误 地 拒绝 输入 。 最 后 一 个 分 类 器 被 训练 为 
具有 高 精度 。 在 测试 时 ， 我 们 按照 顺序 运行 分 类 器 进行 推断 ， 一 旦 级 联 中 的 任何 一 
个 拒绝 它 ， 就 选择 抛弃 。 总 的 来 说 ， 这 人 允许 我 们 使 用 高 容量 模型 以 较 高 的 置信 和 度 验 
证 对 象 的 存在 ， 而 不 是 强制 我 们 为 每 个 样本 付出 完全 推断 的 成 本 。 有 两 种 不 同 的 方 
式 可 以 使 得 级 联 实现 高 容量 。 一 种 方法 是 使 级 联 中 靠 后 的 成 员 单独 具有 高 容量 。 在 
这 种 情况 下 ， 由 于 系统 中 的 一 些 个 体 成 员 具 有 高 容量 ， 因 此 系统 作为 一 个 整体 显然 
也 具有 高 容量 。 还 可 以 使 用 另 一 种 级 联 ， 其 中 每 个 单独 的 模型 具有 低 容量 ， 但 是 由 
于 许多 小 型 模型 的 组 合 ， 整 个 系统 具有 高 容量 。Viola and Jones (2001) 使 用 级 联 的 
增强 决策 树 实现 了 适合 在 手持 数字 相机 中 使 用 的 快速 并 日 鲁 棒 的 面部 检测 右 。 本 质 
上 ， 它 们 的 分 类 带 使 用 滑动 窗口 方法 来 定位 面部 。 分 类 器 会 检查 许多 的 窗口 ， 如 果 
这 些 窗口 内 不 包含 面部 则 被 拒绝 。 级 联 的 另 一 个 版 本 使 用 早期 模型 来 实现 一 种 硬 注 
意 力 机 制 : 级 联 的 先 遗 成 员 定 位 对 象 ， 并 且 级 联 的 后 续 成 员 在 给 定 对 象 位 置 的 情况 
下 执行 进一步 处 理 。 例 如 ，Google 使 用 两 步 级 联 从 街景 视图 图 像 中 转换 地 址 编号 : 
首先 使 用 一 个 机 器 学 习 模 型 查找 地 址 编号 ， 然 后 使 用 另 一 个 机 器 学 习 模 型 将 其 转录 
(Goodfellow et al., 2014d). 
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决策 树 本 身 是 动态 结构 的 一 个 例子 ， 因 为 树 中 的 每 个 节点 决定 应 该 使 用 哪个 子 
树 来 评估 输入 。 一 个 结合 深度 学 习 和 动态 结构 的 简单 方法 是 训练 一 个 决策 树 ， 其 中 
每 个 节点 使 用 神经 网 络 做 出 决策 (Guo and Gelfand, 1992), 虽然 这 种 方法 没有 实现 
加 速 推断 计算 的 目标 。 

类 似 的 ， 我 们 可 以 使 用 称 为 选 通 器 〈gater ) 的 神经 网 络 来 选择 在 给 定 当 前 输入 
的 情况 下 将 使 用 几 个 专家 网 络 (expert network ) 中 的 哪 一 个 来 计算 输出 。 这 个 想法 
的 第 一 个 版 本 被 称 为 专家 混合 体 (mixture of experts ) (Nowlan, 1990; Jacobs et al., 
1991)， 其 中 选 通顺 为 每 个 专家 输出 一 个 概率 或 权重 〈 通过 非 线性 的 softmax Pe BOR 
得 )， 并 且 最 终 输出 由 各 个 专家 输出 的 加 权 组 合 获得 。 在 这 种 情况 下 ， 使 用 选 通 器 不 
会 降低 计算 成 本 ,但 如 果 每 个 样本 的 选 通 器 选择 单个 专家 ， 我 们 就 会 获得 一 个 特殊 
的 硬 专家 混合 体 (hard mixture of experts ) (Collobert et al., 2001, 2002)， 这 可 以 
加 速 推 新 和 训练 。 当 选 通 器 决策 的 数量 很 小 时 ， 这 个 策略 效果 会 很 好 ， 因 为 它 不 是 
组 合 的 。 但 是 当 我 们 想 要 选择 不 同 的 单元 或 参数 子 集 时 ， 不 可 能 使 用 “ 软 开 关 ?”， 
为 它 需要 枚 举 〈 和 计算 输出 ) 所 有 的 选 通 需 配置 。 为 了 解决 这 个 问题 ， 许 多 工作 探 
索 了 几 种 方法 来 训练 组 合 的 选 通 器 。Bengio et al. (2013c) 提出 使 用 选 通 器 概率 梯度 
的 若干 估计 器 ,而 Bacon et al. (2015); Bengio et al. (2015a) 使 用 强化 学 习 技 术 ( R 
BREE (policy gradient ) ) 来 学 习 一 种 条 件 的 Dropout 形式 (作用 于 隐藏 单元 块 )， 
减少 了 实际 的 计算 成 本 ， 而 不 会 对 近似 的 质量 产生 负面 影响 。 

另 一 种 动态 结构 是 开关 ， 其 中 隐藏 单元 可 以 根据 具体 情况 从 不 同 单元 接收 输 
和 人 入。 这 种 动态 路 由 方法 可 以 理解 为 注意 力 机 制 (attention mechanism ) (Olshausen 
et al., 1993)。 目 前 为 止 ， 硬 性 开关 的 使 用 在 大 规模 应 用 中 还 没有 被 证 明 是 有 效 的 。 
较为 先进 的 方法 一 般 采 用 对 许多 可 能 的 输入 使 用 加 权 平 均 ， 因 此 不 能 完全 得 到 动态 
结构 所 带 来 的 计算 益处 。 先 进 的 注意 力 机 制 将 在 第 12.4.5.1 节 中 描述 。 

使 用 动态 结构 化 系统 的 主要 障碍 是 由 于 系统 针对 不 同 输入 的 不 同 代码 分 支 导 致 
的 并 行 度 降低 。 这 意味 着 网 络 中 只 有 很 少 的 操作 可 以 被 描述 为 对 样本 小 批量 的 矩阵 
乘法 或 批量 卷 积 。 我 们 可 以 写 更 多 的 专用 子 程序 ， 用 不 同 的 核对 样本 做 卷 积 ， 或 者 
通过 不 同 的 权重 列 来 乘 以 设计 矩阵 的 每 一 行 。 不 幸 的 是 ， 这 些 专 用 的 子 程序 难以 高 
效 地 实现 。 由 于 缺乏 高 速 缓存 的 一 致 性 ，CPU 实现 会 十 分 缓慢 。 此 外 ， 由 于 缺乏 级 
联 的 内 存 操作 以 及 warp 成 员 使 用 不 同 分 支 时 需要 串 行 化 操作 ，GPTU 的 实现 也 会 很 
慢 。 在 一 些 情况 下 ， 我 们 可 以 通过 将 样本 分 成 组 ， 并 且 都 采用 相同 的 分 支 并 且 同 时 
处 理 这 些 样本 组 的 方式 来 绥 解 这 些 问 题 。 在 离线 环境 中 ， 这 是 最 小 化 处 理 固 定量 术 
本 所 需 时 间 的 一 项 可 接受 的 策略 。 然 而 在 实时 系统 中 ， 样 本 必须 连续 处 理 ， 对 工作 
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负载 进行 分 区 可 能 会 导致 负载 均衡 问题 。 例 如 ， 如 果 我 们 分 配 一 台 机 器 处 理 级 联 中 
的 第 一 步 ， 另 一 台 机 融 处 理 级 联 中 的 最 后 一 步 ， 那 么 第 一 台 机 器 将 倾向 于 过 载 ， 最 
后 一 个 机 器 倾向 于 从 载 。 如 果 每 个 机 咒 被 分 配 以 实现 神经 决策 树 的 不 同 节点 ， 也 会 
出 现 类 似 的 问题 。 


12.1.6 ”深度 网 络 的 专用 硬件 实现 


自从 早期 的 神经 网 络 研究 以 来 ， 硬 件 设计 者 已 经 致力 于 可 以 加 速 神经 网 络 算法 
的 训练 和 /或 推断 的 专用 硬件 实现 。 读 者 可 以 查看 早期 和 更 近 的 专用 硬件 深度 网 络 的 
评论 (Lindsey and Lindblad, 1994; Beiu et al., 2003; Misra and Saha, 2010)。 

不 同形 式 的 专用 硬件 (Graf and Jackel, 1989; Mead and Ismail, 2012; Kim et al., 
2009; Pham et al., 2012; Chen et al., 2014b,a) 的 研究 已 经 持续 了 好 几 十 年 ， 比 如 专 
用 和 集成 电路 ( application-specific integrated circuit, ASIC) 的 数字 (基于 数字 的 二 
进 制 表示 )， 模 拟 (Graf and Jackel, 1989; Mead and Ismail, 2012) ( 基于 以 电压 或 电 
流 表示 连续 值 的 物理 实现 ) 和 混合 实现 ( 组 合 数字 和 模拟 组 件 )。 近 年 来 更 灵活 的 现 
场 可 编程 门 阵列 (field programmable gated array, FPGA ) 实现 (其 中 电路 的 具体 
细节 可 以 在 制造 完成 后 写 和 人 芯片 ) 也 得 到 了 长 足 发 展 。 

虽然 CPU 和 GPU 上 的 软件 实现 通常 使 用 32 或 64 位 的 精度 来 表示 浮 点 数 , 但 
是 长 期 以 来 使 用 较 低 的 精度 在 更 短 的 时 间 内 完成 推 凯 也 是 可 行 的 (Holt and Baker, 
1991; Holi and Hwang, 1993; Presley and Haggard, 1994; Simard and Graf, 1994; 
Wawrzynek et al., 1996; Savich et al., 2007). 这 已 成 为 近年 来 更 迫切 的 问题 ,因为 深 
度 学 习 在 工业 产品 中 越 来 越 受 欢迎 ， 并 且 由 于 更 快 的 硬件 产生 的 巨大 影响 已 经 通 
过 GPU 的 使 用 得 到 了 证 明 。 激 励 当 前 对 深度 网 络 专用 硬件 研究 的 男 一 个 因素 是 单 
4 CPU 或 GPU 核心 的 进展 速度 已 经 减 慢 ， 并 且 最 近 计 算 速 度 的 改进 来 自 于 核心 的 
并 行 化 (无论 CPU 还 是 GPU )。 这 与 20 世纪 90 年 代 的 情况 (上 一 个 神经 网 络 时 
R) 的 不 同 之 处 在 于 ， 神 经 网 络 的 硬件 实现 《从 开始 到 芯片 可 用 可 能 需要 两 年 ) 跟 
不 上 快速 进展 和 价格 低廉 的 通用 CPU 的 脚步 。 因 此 ,在 针对 诸如 手机 等 低 功率 设备 
开发 新 的 硬件 设计 , 并 且 想 要 用 于 深度 学 习 的 一 般 公 众 应 用 (例如 ,具有 语音 、 计 算 
机 视觉 或 自然 语言 功能 的 设施 ) 等 时 ， 研 究 专用 硬件 能 够 进一步 推动 其 发 展 。 

最 近 对 基于 反 向 传播 神经 网 络 的 低 精度 实现 的 工作 (Vanhoucke et al., 2011; 
Courbariaux et al., 2015; Gupta et al., 2015) 表明 ，8 和 16 位 之 间 的 精度 足以 满足 
使 用 或 训练 基于 反 向 传播 的 深度 神经 网 络 的 要 求 。 显 而 易 见 的 是 ， 在 训练 期 间 需 要 
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比 在 推断 时 更 高 的 精度 ， 并 且 数 字 某 些 形式 的 动态 定点 表示 能 够 减少 每 个 数 需要 的 
存储 空间 。 传 统 的 定点 数 被 限制 在 了 一 个 固定 范围 之 内 (其 对 应 于 浮 点 表示 中 的 给 
定 指数 )。 而 动态 定点 表示 在 一 组 数字 (例如 一 个 层 中 的 所 有 权重 ) 之 间 共 享 该 范 
围 。 使 用 定点 代替 浮 点 表示 并 且 每 个 数 使 用 较 少 的 比特 能 够 减少 执行 乘法 所 需 的 人 硬 
件 表面 积 、 功 率 需 求 和 计算 时 间 。 而 乘法 已 经 是 使 用 或 训练 反 向 传播 的 现代 深度 网 
络 中 要 求 最 高 的 操作 。 








12.2 ”计算 机 视觉 


一 直 以 来 ,计算 机 视觉 就 是 深度 学 习 应 用 中 几 个 最 活路 的 研究 方向 之 一 。 因 为 
视觉 是 一 个 对 人 类 以 及 许多 动物 之 不 费力 ， 但 对 计算 机 却 充满 挑战 的 任务 (Ballard 
et al., 1983)。 深 度 学 习 中 许多 流行 的 标准 基准 任务 包括 对 象 识别 以 及 光学 字符 识别 。 

计算 机 视觉 是 一 个 非常 广阔 的 发 展 领域 ， 其 中 包括 多 种 多 样 的 处 理 图 片 的 方式 
以 及 应 用 方向 。 计 算 机 视觉 的 应 用 广泛 : 从 复 现 人 类 视觉 能 力 ( 比如 识别 人 脸 ) 到 创 
造 全 新 的 视觉 能 力 。 举 个 后 者 的 例子 ， 近 期 一 个 新 的 计算 机 视觉 应 用 是 从 视频 中 可 
视 物体 的 振动 中 识别 相应 的 声波 (Davis et al., 2014)。 大 多 数 计算 机 视觉 领域 的 深度 
学 习 研 究 未 曾 关 注 过 这 样 一 个 奇异 的 应 用 ， 它 扩展 了 图 像 的 范围 ， 而 不 是 仅仅 关注 
于 人 工 智能 中 较 小 的 核心 目标 一 一 复制 人 类 的 能 力 。 无 论 是 报告 图 像 中 存在 哪个 物 
体 ， 还 是 给 图 像 中 每 个 对 象 周围 添加 注释 性 的 边框 ， 或 从 图 像 中 转录 符号 序列 ， 或 
给 图 像 中 的 每 个 像素 标记 它 所 属 对 象 的 标识 ， 大 多 数 计算 机 视觉 中 的 深度 学 习 往 往 
用 于 对 象 识别 或 者 某 种 形式 的 检测 。 由 于 生成 模型 已 经 是 深度 学 习 研 究 的 指导 原则 ， 
因此 还 有 大 量 图 像 合成 工作 使 用 了 深度 模型 。 尽 管 图 像 合成 〈“ 无 中 生 有 ”) 通常 不 
包括 在 计算 机 视觉 内 ,但 是 能 够 进行 图 像 合 成 的 模型 通常 用 于 图 像 恢复 ， 即 修复 图 
像 中 的 缺陷 或 从 图 像 中 移 除 对 象 这 样 的 计算 机 视觉 任务 。 














12.2.1 FALIE 


由 于 原始 输入 往往 以 深度 学 习 架 构 难 以 表示 的 形式 出 现 ， 许 多 应 用 领域 需要 复 
林 精 细 的 预 处 理 。 计 算 机 视觉 通常 只 需要 相对 少 的 这 种 预 处 理 。 图 像 应 该 被 标准 化 ， 
从 而 使 得 它们 的 像素 都 在 相同 并 且 合 理 的 范围 内 ， 比 如 [0,1] 或 者 [1,1]。 将 [0,1] 
中 的 图 像 与 [0,255] 中 的 图 像 混合 通常 会 导致 失败 。 将 图 像 格式 化 为 具有 相同 的 比 
例 严格 上 说 是 唯一 一 种 必要 的 预 处 理 。 许 多 计算 机 视觉 架构 需要 标准 尺寸 的 图 像 ， 
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因此 必须 裁剪 或 缩放 图 像 以 适应 该 尺寸 。 然 而 ， 严 格 地 说 即使 是 这 种 重新 调整 比例 
的 操作 并 不 总 是 必要 的 。 一 些 卷 积 模型 接受 可 变 大 小 的 输入 并 动态 地 调整 它们 的 池 
化 区 域 大 小 以 保持 输出 大 小 恒定 (Waibel et al., 1989)。 其 他 卷 积 模型 具有 可 变 大 小 
的 输出 ， 其 尺寸 随 输入 自动 缩放 ， 例 如 对 图 像 中 的 每 个 像素 进行 去 品 或 标注 的 模型 
(Hadsell et al., 2007)。 

数据 集 增强 可 以 被 看 作 是 一 种 只 对 训练 集 做 预 处 理 的 方式 。 数 据 集 增强 是 减少 
大 多 数 计算 机 视觉 模型 泛 化 误差 的 一 种 极 好 方法 。 在 测试 时 可 用 的 一 个 相关 想法 是 
将 同一 输入 的 许多 不 同 版 本 传 给 模型 (例如, 在 稍微 不 同 的 位 置 处 裁剪 的 相同 图 像 )， 
并 且 在 模型 的 不 同 实例 上 决定 模型 的 输出 。 后 一 个 想法 可 以 被 理解 为 集成 方法 ， 并 
且 有 助 于 减少 泛 化 误差 。 

其 他 种 类 的 预 处 理 需 要 同时 应 用 于 训练 集 和 测试 集 ， 其 目的 是 将 每 个 样本 置 于 
更 规范 的 形式 ,以便 减 少 模型 需要 考虑 的 变化 量 。 减少 数据 中 的 变化 量 既 能 够 减少 泛 
化 误差 ， 也 能 够 减 小 拟 合 训练 集 所 需 模型 的 大 小 。 更 简单 的 任务 可 以 通过 更 小 的 模 
型 来 解决 ， 而 更 简单 的 解决 方案 泛 化 能 力 一 般 更 好 。 这 种 类 型 的 预 处 理 通 常 被 设计 
为 去 除 输入 数据 中 的 某 种 可 变性 ， 这 对 于 人 工 设 计 者 来 说 是 容易 描述 的 ， 并 且 人 工 
设计 者 能 够 保证 不 受到 任务 影响 。 当 使 用 大 型 数据 集 和 大 型 模型 训练 时 ， 这 种 预 处 
理 通常 是 不 必要 的 ， 并 且 最 好 只 是 让 模型 学 习 哪 些 变 化 性 应 该 保留 。 例如， 用 于 分 
类 ImageNet 的 AlexNet 系统 仅 具 有 一 个 预 处 理 步 又 : 对 每 个 像素 减 去 训练 样本 的 
平均 值 (Krizhevsky et al., 2012b). 














12.2.1.1 ”对 比 度 归 一 化 





在 许多 任务 中 ， 对 比 度 是 能 够 安全 移 除 的 最 为 明显 的 变化 源 之 一 。 简 单 地 说 ， 
对 比 度 指 的 是 图 像 中 亮 像素 和 暑 像素 之 间 差 异 的 大 小 。 量 化 图 像 对 比 度 有 许多 方式 。 
在 深度 学 习 中 ， 对 比 度 通常 指 的 是 图 像 或 图 像 区 域 中 像素 的 标准 差 。 假 设 我 们 有 一 
个 张 量 表示 的 图 像 X E R7, FOX, | 表示 第 i 行 第 j 列 红色 的 强度 ，Xja 对 
应 的 是 绿色 的 强度 ，X;js 对 应 的 是 蓝 色 的 强度 。 然 后 整个 图 像 的 对 比 度 可 以 表示 如 
F: 





C 


， = > sy Oe _ xX), (12.1) 


i=1 j=1 k=1 
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其 中 X 是 整个 图 片 的 平均 强度 ， 满 足 
3 
X= a 2 i (12.2) 


全 局 对 比 度 归 一 化 (Global contrast normalization, GCN ) 旨 在 通过 从 每 个 图 
像 中 减 去 其 平均 值 ， 然 后 重新 缩放 其 使 得 其 像素 上 的 标准 差 等 于 某 个 党 数 s 来 防止 
图 像 具 有 变化 的 对 比 度 。 这 种 方法 非常 复杂 ， 因 为 没有 缩放 因子 可 以 改变 零 对 比 度 
图 像 (所 有 像素 都 具有 相等 强度 的 图 像 ) 的 对 比 度 。 具 有 非常 低 但 非 零 对 比 度 的 图 
像 通 常 几乎 没有 信息 内 容 。 在 这 种 情况 下 除 以 真实 标准 差 通常 仅 能 放大 传感器 噪声 
或 压缩 伪 像 。 这 种 现象 启发 我 们 引入 一 个 小 的 正 的 正则 化 参数 入 来 平衡 估计 的 标准 
差 。 或者, 我们 至 少 可 以 约束 分 母 使 其 大 于 等 于 e。 给 定 一 个 输入 图 像 X， 全 局 对 比 
度 归 一 化 产生 输出 图 像 X ， 和 定义 为 


Xi j,k = 


2 





Xi,j,k = x 
S 
max{e yA tigh Dia Dj Dia Xie -X 


从 大 图 像 中 剪 切 感 兴趣 的 对 象 所 组 成 的 数据 集 不 可 能 包含 任何 强度 几乎 恒定 的 
图 像 。 在 这 些 情况 下 ， 通 过 设置 = 0 来 忽略 小 分 母 问 题 是 安全 的 ， 并 且 在 非常 罕 
见 的 情况 下 为 了 避免 除 以 0， 通过 将 。 设置 为 一 个 非常 小 的 值 比如 说 10-8。 这 也 
是 Goodfellow et al. (2013c) 在 CIFAR-10 数据 集 上 所 使 用 的 方法 。 随 机 剪裁 的 小 图 
像 更 可 能 具有 几乎 恒定 的 强度 ， 使 得 激进 的 正则 化 更 有 用 。 在 处 理 从 CIFAR-10 数 
据 中 随机 选择 的 小 区 域 时 ，Coates et al. (2011) 使 用 e= 0, 入 = 10。 


尺度 参数 s 通常 可 以 设置 为 1 (如 Coates et al. (2011) 所 采用 的 )， 或 选择 使 所 
有 样本 上 每 个 像素 的 标准 差 接近 1 ( 如 Goodfellow et al. (2013c) 所 采用 的 )。 

式 (12.3) 中 的 标准 差 仅 仅 是 对 图 片 5? 范 数 的 重新 缩放 ( 假设 图 像 的 平均 值 已 经 
被 移 除 ), 我 们 更 偏向 于 根据 标准 差 而 不 是 范 数 来 定义 GCN ,因为 标准 差 包括 除 
以 像素 数量 这 一 步 ， 从 而 基于 标准 差 的 GCN 能 够 使 用 与 图 像 大 小 无 关 的 固定 的 so 
然而 ， 观 察 到 L 范 数 与 标准 差 成 比例 ， 这 符合 我 们 的 直觉 。 我 们 可 以 把 GON 理解 
成 到 球 壳 的 一 种 映射 。 图 12.1 对 此 有 所 说 明 。 这 可 能 是 一 个 有 用 的 属性 ， 因 为 神经 
网 络 往 往 更 好 地 响应 空间 方向 ， 而 不 是 精确 的 位 置 。 响 应 相同 方向 上 的 多 个 距离 需 
要 具有 共 线 权重 向 量 但 具有 不 同 偏 置 的 隐藏 单元 。 这 样 的 情况 对 于 学 习 算 法 来 说 可 
能 是 困难 的 。 此 外 ,许多 浅 层 的 图 模型 把 多 个 分 离 的 模式 表示 在 一 条 线 上 会 出 现 问 
题 。GCN 采用 一 个 样本 一 个 方向 ! 而 不 是 不 同 的 方向 和 距离 来 避免 这 些 问 题 。 

1! 译 者 : 所 有 样本 相似 的 距离 


(12.3) 
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Raw input GCN, 4 =0 GCN, à = 107? 


OQ 


图 12.1: GCN 将 样本 投影 到 一 个 球 上 。[( 左 ) 原始 的 输入 数据 可 能 拥有 任意 的 范 数 。( 中 儿 = 0 时 
候 的 GON 可 以 完美 地 将 所 有 的 非 零 样本 投影 到 球 上 。 这 里 我 们 令 s = 1，e = 107°, PRA 
使 用 的 GON 是 基于 归 一 化 标准 差 而 不 是 L 范 数 ， 所 得 到 的 球 并 不 是 单位 球 。( 右 ) > 0 的 正则 
化 GCN 将 样本 投影 到 球 上 ,但 是 并 没有 完全 地 丢弃 其 范 数 中 变化 。s 和 的 取 值 与 之 前 一 样 。 









































与 直觉 相反 的 是 ， 存 在 被 称 为 sphering (sphering ) 的 预 处 理 操作 ， 并 且 它 不 
同 于 GCN。sphering 并 不 会 使 数据 位 于 球形 壳 上 ， 而 是 将 主 成 分 重新 缩放 以 具有 相 
等 方差 , 使 得 PCA 使 用 的 多 变量 正 态 分 布 具 有 球形 等 高 线 。sphering 通常 被 称 为 A 
化 ( whitening )。 


全 局 对 比 度 归 一 化 常常 不 能 突出 我 们 想 要 突出 的 图 像 特 征 ， 例 如 边缘 和 和 角 。 如 
果 我 们 有 一 个 场景 ， 包 含 了 一 个 大 的 黑暗 区 域 和 一 个 大 的 明亮 的 区 域 (例如 一 个 城 
市 广场 有 一 半 的 区 域 处 于 建筑 物 的 阴影 之 中 )， 则 全 局 对 比 度 归 一 化 将 确保 暗 区 域 的 
亮度 与 亮 区 域 的 亮度 之 间 存 在 大 的 差异 。 然 而 ， 它 不 能 确保 暗 区 内 的 边缘 突出 。 

这 催生 了 局 部 对 比 度 归 一 化 (local contrast normalization, LCN ) 。 局 部 对 比 
度 归 一 化 确保 对 比 度 在 每 个 小 窗口 上 被 归 一 化 ， 而 不 是 作为 整体 在 图 像 上 被 归 一 化 。 
关于 局 部 对 比 度 归 一 化 和 全 局 对 比 度 归 一 化 的 比较 可 以 参考 图 12.2 。 

局 部 对 比 度 归 一 化 的 各 种 定义 都 是 可 行 的 。 在 所 有 情况 下 , 我 们 可 以 通过 减 去 邻 
近 像素 的 平均 值 并 除 以 邻近 像素 的 标准 差 来 修改 每 个 像素 。 在 一 些 情况 下 ， 要 计算 
以 当前 要 修改 的 像素 为 中 心 的 矩形 窗口 中 所 有 像素 的 平均 值 和 标准 差 (Pinto et al., 
2008)。 在 其 他 情况 下 ， 使 用 的 则 是 以 要 修改 的 像素 为 中 心 的 高 斯 权重 的 加 权 平 均 和 
加 权 标 准 差 。 在 彩色 图 像 的 情况 下 ， 一些 策 略 单独 处 理 不 同 的 颜色 通道 ， 而 其 他 策 
略 组 合 来 自 不 同 通道 的 信息 以 使 每 个 像素 归 一 化 (Sermanet et al., 2012)。 
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Input image GCN LCN 


图 12.2: 全 局 对 比 度 归 一 化 和 局 部 对 比 度 归 一 化 的 比较 。 直 观 上 说 ,全 局 对 比 度 归 一 化 的 效果 很 巧 
妙 。 它 使 得 所 有 的 图 片 的 尺度 都 差不多 ， 这 减轻 了 学 习 算 法 处 理 多 个 尺度 的 负担 。 局 部 对 比 度 归 
一 化 更 多 地 改变 了 图 人像， 丢弃 了 所 有 相同 强度 的 区 域 。 这 使 得 模型 能 够 只 关注 于 边缘 。 较 好 的 纹 
理 区 域 ， 如 第 二 行 的 屋子 ， 可 能 会 由 于 归 一 化 核 的 过 高 带宽 而 丢失 一 些 细节 。 














局 部 对 比 度 归 一 化 通常 可 以 通过 使 用 可 分 离 卷 积 ( 参考 第 9.8 市 ) 来 计算 特征 映 
射 的 局 部 平均 值 和 局 部 标准 差 ， 然 后 在 不 同 的 特征 映射 上 使 用 逐 元 素 的 减法 和 除法 。 

局 部 对 比 度 归 一 化 是 可 微分 的 操作 ， 并 且 还 可 以 作为 一 种 非 线性 作用 应 用 于 网 
络 隐藏 屋 ， 以 及 应 用 于 输入 的 预 处 理 操作 。 

与 全 局 对 比 度 归 一 化 一 样 ， 我 们 通常 需要 正则 化 局 部 对 比 度 归 一 化 来 避免 出 现 
除 以 零 的 情况 。 事 实 上 ， 因 为 局 部 对 比 度 归 一 化 通常 作用 于 较 小 的 窗口 ， 所 以 正则 
化 更 加 重要 。 较 小 的 窗口 更 可 能 包含 彼此 几乎 相同 的 值 ， 因 此 更 可 能 具有 零 标 准 差 。 


12.2.2 ”数据 集 增强 


如 第 7.4 节 中 讲 到 的 一 样 ， 我 们 很 容易 通过 增加 训练 集 的 额外 副本 来 增加 训练 
集 的 大 小 ， 进 而 改进 分 类 器 的 泛 化 能 力 。 这 些 额 外 副本 可 以 通过 对 原始 图 像 进行 一 
些 变 化 来 生成 ， 但 是 并 不 改变 其 类 别 。 对 象 识别 这 个 分 类 任务 特别 适合 于 这 种 形式 
的 数据 集 增强 ， 因 为 类 别 信息 对 于 许多 变换 是 不 变 的 ， 而 我 们 可 以 简单 地 对 输入 应 
用 诸多 几何 变换 。 如 前 所 述 ， 分 类 器 可 以 受益 于 随机 转换 或 者 旋转 ， 某 些 情 况 下 输 
入 的 翻转 可 以 增强 数据 集 。 在 专门 的 计算 机 视觉 应 用 中 ， 存 在 很 多 更 高 级 的 用 以 数 
据 集 增强 的 变换 。 这 些 方案 包括 图 像 中 颜色 的 随机 扰动 (Krizhevsky et al., 2012b)， 
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以 及 对 输入 的 非 线 性 几何 变形 (LeCun et al., 2001)。 


12.3 ”语音 识别 








语音 识别 任务 在 于 将 一 段 包 括 了 自然 语言 发 音 的 声学 信号 投影 到 对 应 说 话 人 的 
词 序列 上 。 S X= (zDD,22),..., zw 了) 表示 语音 的 输入 向 量 (传统 做 法 以 20ms 为 
一 帧 分 割 信号 )。 许 多 语音 识别 的 系统 通过 特殊 的 手工 设计 方法 预 处 理 输入 信号 ， 从 
而 提取 特征 , 但 是 某 些 深度 学 习 系 统 (Jaitly and Hinton, 2011) 直接 从 原始 输入 中 学 
习 特 征 。 令 y= (y1,y2,---, yn) 表示 目标 的 输出 序列 (通常 是 一 个 词 或 者 字符 的 序 
列 )。 自 动 语音 识别 ( Automatic Speech Recognition, ASR ) 任务 指 的 是 构造 一 个 函 
数 fon， 使 得 它 能 够 在 给 定 声学 序列 X 的 情况 下 计算 最 有 可 能 的 语言 序列 y: 


frsn(X)=argmaxP’(y | X = X), (12.4) 
y 





其 中 P* 是 给 定 输入 值 X LAK y 的 真实 条 件 分 布 。 

从 20 世纪 80 年 代 直 到 约 2009-2012 年 ， 最 先进 的 语音 识别 系统 是 隐 马 尔 可 夫 
模型 ( Hidden Markov Model, HMM ) 和 高 斯 混合 模型 ( Gaussian Mixture Model, 
GMM ) 的 结合 。GMM 对 声学 特征 和 音素 (phoneme ) 之 间 的 关系 建 模 (Bahl et al., 
1987), HMM 对 音素 序列 建 模 。GMM-HMM 模型 将 语音 信和 号 视 作 由 如 下 过 程 生成 : 
首先 ,一 个 HMM 生成 了 一 个 音素 的 序列 以 及 离散 的 子音 素 状 态 (比如 每 一 个 音 
素 的 开始 ， 中 间 ， 结 尾 )， 然 后 GMM 把 每 一 个 离散 的 状态 转化 为 一 个 简短 的 声 
音信 号 。 尽 管 直到 最 近 GMM-HMM 一 直 在 ASR 中 占据 主导 地 位 ,语音 识别 仍然 
是 神经 网 络 所 成 功 应 用 的 第 一 个 领域 。 从 20 世纪 80 年 代 末 期 到 90 年 代 初 期 ， 大 
量 语音 识别 系统 使 用 了 神经 网 络 (Bourlard and Wellekens, 1989; Waibel et al., 1989; 
Robinson and Fallside, 1991; Bengio et al., 1991, 1992; Konig et al., 1996)。 当 时 , 基 
于 神经 网 络 的 ASR 的 表现 和 GMM-HMM 系统 的 表现 差不多 。 比 如 说 ，Robinson 
and Fallside (1991) 在 TIMIT 数据 集 (Garofolo et al., 1993) (有 39 个 区 分 的 音素 ) 
上 达到 了 26% 的 音素 错误 率 ， 这 个 结果 优 于 或 者 说 是 可 以 与 基于 HMM 的 结果 相 
比 。 从 那 时 起 ，TIMIT 成 为 了 音素 识别 的 一 个 基准 数据 集 ， 在 语音 识别 中 的 作用 就 
All MNIST 在 对 象 识别 中 的 作用 差不多 。 然 而 ， 由 于 语音 识别 软件 系统 中 复杂 的 工 
程 因素 以 及 在 基于 GMM-HMM 的 系统 中 已 经 付出 的 巨大 努力 ， 工 业界 并 没有 迫切 
转向 神经 网 络 的 需求 。 结 果 ， 直 到 21 世纪 00 年 代 末 期 ， 学术 界 和 工业 界 的 研究 者 
们 更 多 的 是 用 神经 网 络 为 GMM-HMM 系统 学 习 一 些 额 外 的 特征 。 
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之 后 ， 随 着 更 大 更 深 的 模型 以 及 更 大 的 数据 集 的 出 现 ， 通 过 使 用 神经 网 络 代 
P GMM 来 实现 将 声学 特征 转化 为 音素 ( 或 者 子音 素 状态 ) 的 过 程 可 以 大 大 地 提高 
识别 的 精度 。 从 2009 年 开始 ， 语 音 识 别 的 研究 者 们 将 一 种 无 监督 学 习 的 深度 学 习 方 
法 应 用 于 语音 识别 。 这 种 深度 学 习 方 法 基于 训练 一 个 被 称 作 是 受 限 玻 尔 效 曼 机 的 无 
向 概率 模型 ， 从 而 对 输入 数据 建 模 。 受 限 玻 尔 效 曼 机 将 会 在 第 三 部 分 中 描述 。 为 了 完 
成 语音 识别 任务 ， 无 监督 的 预 训练 被 用 来 构造 一 个 深度 前 馈 网 络 ， 这 个 神经 网 络 每 
一 层 都 是 通过 训练 受 限 玻 尔 兹 曼 机 来 初始 化 的 。 这 些 网 络 的 输入 是 从 一 个 固定 规格 
的 输入 窗 ( 以 当前 帧 为 中 心 ) 的 谱 声 学 表示 抽取 ， 预 测 了 当前 帧 所 对 应 的 HMM AR 
态 的 条 件 概 率 。 训 练 一 个 这 样 的 神经 网 络 能 够 可 以 显著 提高 在 TIMIT 数据 集 上 的 
识别 率 (Mohamed et al., 2009, 2012a) ， 并 将 音素 级 别 的 错误 率 从 大 约 26% 降 到 了 
20.7%。 关 于 这 个 模型 成 功 原 因 的 详细 分 析 可 以 参考 Mohamed et al. (2012b)。 对 于 
基本 的 电话 识别 工作 流程 的 一 个 扩展 工作 是 添加 说 话 人 自 适应 相关 特征 (Mohamed 
et al., 2011) 的 方法 ， 这 可 以 进一步 地 降低 错误 率 。 紧 接着 的 工作 则 将 结构 从 音素 识 
别 (TIMIT 所 主要 关注 的 ) 转向 了 大 规模 词汇 语音 识别 (Dahl et al., 2012)， 这 不 仅 
包含 了 识别 音素 ， 还 包括 了 识别 大 规模 词汇 的 序列 。 语 音 识别 上 的 深度 网 络 从 最 初 
的 使 用 受 限 玻 尔 兹 曼 机 进行 预 训练 发 展 到 了 使 用 诸如 整流 线性 单元 和 Dropout 这 样 
的 技术 (Zeiler et al., 2013; Dahl et al., 2013)。 从 那 时 开始 ， 工 业界 的 几 个 语音 研究 
组 开始 寻求 与 学 术 圈 的 研究 者 之 间 的 合作 。Hinton et al. (2012a) 描述 了 这 些 合作 所 
带 来 的 突破 性 进展 ， 这 些 技术 现在 被 广泛 应 用 在 产品 中 ， 比 如 移动 手机 端 。 

随后 ， 当 研究 组 使 用 了 越 来 越 大 的 带 标签 的 数据 集 ， 加 入 了 各 种 初始 化 ， 训 练 
方法 以 及 调试 深度 神经 网 络 的 结构 之 后 ， 他 们 发 现 这 种 无 监督 的 预 训练 方式 是 没有 
必要 的 ;或 者 说 不 能 带 来 任何 显著 的 改进 。 

用 语音 识别 中 词 错 误 率 来 衡量 ， 在 语音 识别 性 能 上 的 这 些 突破 是 史无前例 的 
(大 约 30% 的 提高 )。 在 这 之 前 的 长 达 十 年 左右 的 时 间 内 ， 尽 管 数 据 集 的 规模 是 随时 
间 增 长 的 ( 见 Deng and Yu (2014) 的 图 2.4), 但 基于 GMM-HMM 的 系统 的 传统 技 
术 已 经 停滞 不 前 了 。 这 也 导致 了 语音 识别 领域 快速 地 转向 深度 学 习 的 研究 。 在 大 约 
的 两 年 时 间 内 ， 工 业界 的 大 多 数 的 语音 识别 产品 都 包含 了 深度 神经 网 络 ， 这 种 成 功 
也 激发 了 ASR 领 域 对 深度 学 习 算 法 和 结构 的 一 波 新 的 研究 浪潮 ， 并 且 影 响 至 今 。 

其 中 的 一 个 创新 点 是 卷 积 网 络 的 应 用 (Sainath et al., 2013)。 卷 积 网 络 在 时 域 与 
频 域 上 复 用 了 权重 ,改进 了 之 前 的 仅 在 时 域 上 使 用 重复 权 值 的 时 延 神经 网 络 。 这 种 
新 的 二 维 的 卷 积 模型 并 不 是 将 输入 的 频谱 当 作 一 个 长 的 向 量 ， 而 是 当成 是 一 个 图 像 ， 
其 中 一 个 轴 对 应 着 时 间 ， 另 一 个 轴 对 应 的 是 谱 分 量 的 频率 。 
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完全 抛弃 HMM 并 转向 研究 端 到 端的 深度 学 习 语 音 识别 系统 是 至 今 仍然 活跃 的 
另 一 个 重要 推动 。 这 个 领域 第 一 个 主要 的 突破 是 Graves et al. (2013), 其 中 训练 了 一 
个 深度 的 长 短期 记忆 循环 神经 网 络 ( 见 第 10.10 节 ), 使 用 了 帧 一 音素 排列 的 MAP HE 
Wr, W LeCun et al. (2001) 以 及 CTC 框架 (Graves et al., 2006; Graves, 2012) 中 
一 样 。 一 个 深度 循环 神经 网 络 (Graves et al., 2013) 每 个 时 间 步 的 各 层 都 有 状态 变量 ， 
两 种 展开 图 的 方式 导致 两 种 不 同 深度 : 一 种 是 普通 的 根据 层 的 堆 友 衡量 的 深度 ， 另 
一 种 根据 时 间 展 开 衡量 的 深度。 这 个 工作 把 TIMIT 数据 集 上 音素 的 错误 率 记录 降 到 
了 的 新 低 17.7%。 关 于 应 用 于 其 他 领域 的 深度 循环 神经 网 络 的 变种 可 以 参考 Pascanu 
et al. (2014a); Chung et al. (2014)。 

另 一 个 端 到 端的 深度 学 习 语音 识别 方向 的 最 新 方法 是 让 系统 学 习 如 何 利用 语音 
(phonetic ) 层级 的 信息 “排列 ”声学 (acoustic ) 层级 的 信息 (Chorowski et al., 2014; 
Lu et al., 2015). 














12.4 自然 语言 处 理 


自然 语言 处 理 ( Natural Language Processing ) 让 计算 机 能 够 使 用 人 类 语言 , 例 
如 英语 或 法 语 。 为 了 让 简单 的 程序 能 够 高 效 明 确 地 解析 ， 计 算 机 程序 通常 读 取 和 发 
出 特殊 化 的 语言 。 而 自然 的 语言 通常 是 模糊 的 ， 并 且 可 能 不 遵循 形式 的 描述 。 自 然 
语言 处 理 中 的 应 用 如 机 器 翻译 ， 学 习 者 需要 读 取 一 种 人 类 语言 的 句子 ， 并 用 另 一 种 
人 类 语言 发 出 等 同 的 句子 。 许 多 NLP 应 用 程序 基于 语言 模型 ,语言 模型 定义 了 关于 
自然 语言 中 的 字 、 字 符 或 字 节 序列 的 概率 分 布 。 

与 本 章 讨 论 的 其 他 应 用 一 样 ， 非 常 通用 的 神经 网 络 技术 可 以 成 功 地 应 用 于 自然 
语言 处 理 。 然 而 , 为 了 实现 上 章 越 的 性 能 并 扩展 到 大 型 应 用 程序 , 一 些 领域 特定 的 策略 
也 很 重要 。 为 了 构建 自然 语言 的 有 效 模型 ,通常 必须 使 用 专门 处 理 序列 数据 的 技术 。 
在 很 多 情况 下 ， 我 们 将 自然 语言 视 为 一 系列 词 ， 而 不 是 单个 字符 或 字 节 序列 。 因 为 
可 能 的 词 总 数 非常 大 ， 基 于 词 的 语言 模型 必须 在 极 高 维度 和 稀 玻 的 离散 空间 上 操作 。 
为 使 这 种 空间 上 的 模型 在 计算 和 统计 意义 上 都 高 效 ， 研 究 者 已 经 开发 了 几 种 策略 。 























12.4.1 n-gram 


语言 模型 (language model) 定义 了 自然 语言 中 标记 序列 的 概率 分 布 。 根 据 模型 
的 设计 ,标记 可 以 是 词 、 字 符 、 其 至 是 字 节 。 标记 总 是 离散 的 实体 。 最 早 成 功 的 语言 
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模型 基于 固定 长 度 序列 的 标记 模型 ， 称 为 n-gram。 一 个 n-gram 是 一 个 包含 n 个 标 
记 的 序列 。 

基于 n-gram 的 模型 定义 一 个 条 件 概率 一 一 给 定 前 n 一 1 个 标记 后 的 第 n 个 标 
记 的 条 件 概 率 。 该 模型 使 用 这 些 条 件 分 布 的 乘积 定义 较 长 序列 的 概率 分 布 : 


PGi soy) =F ig veg acd) II P(x | Mendy .3 Te 1). (12.5) 
t=n 
这 个 分 解 可 以 由 概率 的 链 式 法 则 证 明 。 初 始 序列 P(t... En) 的 概率 分 布 可 以 通 
RARUD n 值 的 不 同 模型 建 模 。 
训练 n-gram 模型 是 简单 的 ， 因 为 最 大 似 然 估计 可 以 通过 简单 地 统计 每 个 可 能 
的 n-gram 在 训练 集中 出 现 的 次 数 来 获得 。 几 十 年 来 ， 基 于 n-gram 的 模型 都 是 统 
计 语 言 模型 的 核心 模块 (Jelinek and Mercer, 1980; Katz, 1987; Chen and Goodman, 
1999)。 
对 于 小 的 n 值 , 模型 有 特定 的 名 称 : n = 1 称 为 一 元 语法 Cunigram ), n = 2 称 
为 二 元 语法 (bigram ) K n = 3 称 为 三 元 语法 (trigram )。 这 些 名 称 源 于 相应 数字 
的 拉丁 前 级 和 希腊 后 级 “-gram”， 分 别 表示 所 写 之 物 。 
通常 我 们 同时 训练 n-gram 模型 和 n — 1 gram 模型 。 这 使 得 下 式 可 以 简单 地 通 
过 查找 两 个 存储 的 概率 来 计算 。 

Plt asd anette, yt) 
Pr i(We ni Ti) 
NTEP, 中 精确 地 再 现 推 新 ， 我 们 训练 Pa- 时 必须 省 略 每 个 序列 最 后 一 个 字符 。 

举 个 例子 ， 我 们 演示 三 元 模型 如 何 计算 句子 “THE DOG RAN AWAY.” 的 概率 。 句 
子 的 第 一 个 词 不 能 通过 上 述 条 件 概率 的 公式 计算 ， 因 为 句子 的 开头 没有 上 下 文 。 取 
而 代 之 , 在 句子 的 开头 我 们 必须 使 用 词 的 边缘 概率 。 因 此 我 们 计算 Py(THE DOG RAN). 
最 后 ， 可 以 使 用 条 件 分 布 P(AWAY | DOG RAN) (典型 情况 ) 来 预测 最 后 一 个 词 。 将 这 
与 式 (12.6) 放 在 一 起 ， 我 们 得 到 : 


(12.6) 





Pe | t 一 PP 十 1) Re) 于 


P(THE DOG RAN AWAY) = P3(THE DOG RAN)P3(DOG RAN AWAY)/P (DOG RAN). (12.7) 


n-gram 模型 最 大 似 然 的 基本 限制 是 ， 在 许多 情况 下 从 训练 集 计数 估计 得 到 的 
Py 很 可 能 为 零 ( 即使 元 组 (z4_n+1,.… ,zt) 可 能 出 现在 测试 集中 )。 这 可 能 会 导致 
两 种 不 同 的 灾难 性 后 果 。 当 Phir 为 零 时 ， 该 比率 是 未 定义 的 ， 因 此 模型 甚至 不 能 





ww ai bbt.com GOOO000 


dourbz/350DFo 


12.4 自然 语言 处 理 393 


产生 有 意义 的 输出 。 当 Pa- 非 零 而 Pa 为 零 时 ， 测 试 样本 的 对 数 似 然 为 -co。 为 
避免 这 种 灾难 性 的 后 果 ， 大 多 数 n-gram 模型 采用 某 种 形式 的 平滑 (smoothing ) 。 
平 请 技术 将 概率 质量 从 观察 到 的 元 组 转移 到 类 似 的 未 观察 到 的 元 组 。 见 Chen and 
Goodman (1999) 的 综述 和 实验 对 比 。 其 中 一 种 基本 技术 基于 向 所 有 可 能 的 下 一 个 符 
号 值 添加 非 零 概 率 质 量 。 这 个 方法 可 以 被 证 明 是 ， 计 数 参 数 具 有 均匀 或 Dirichlet 先 
验 的 贝 叶 斯 推断 。 另 一 个 非常 流行 的 想法 是 包含 高 阶 和 低 阶 n-gram 模型 的 混合 模 
型 ， 其 中 高 阶 模 型 提供 更 多 的 容量 ， 而 低 阶 模型 尽 可 能 地 避免 零 计 数 。 如 果 上 下 文 
Zn .21 的 频率 太 小 而 不 能 使 用 高 阶 模型 ， 回 退 方 法 (back-of methods) 就 
查找 低 阶 n-gram 。 更 正式 地 说 ， 它 们 通过 上 下 文 Linek- ;Zt_1 估计 wz 上 的 分 
布 ， 并 增加 k 直到 找到 足够 可 靠 的 估计 。 

经 典 的 n-gram 模型 特别 容易 引起 维 数 灾难 。 因 为 存在 |y|” 可 能 的 n-gram, 而 
且 |V| 通常 很 大 。 即 使 有 大 量 训练 数据 和 适当 的 n， 大 多 数 n-gram 也 不 会 出 现在 训 
练 集中 。 经典 n-gram 模型 的 一 种 观点 是 执行 最 近邻 查询 。 换 名 话说 ， 它 可 以 被 视 为 
局 部 非 参 数 预测 器 ， 类 似 于 大 最 近邻 。 这 些 极端 局 部 预测 器 面临 的 统计 问题 已 经 在 
第 5.11.2 节 中 描述 过 。 语言 模型 的 问题 其 至 比 普通 模型 更 严重 ,因为 任何 两 个 不 同 的 
词 在 one-hot 向 量 空 间 中 的 距离 彼此 相同 。 因 此 ， 难 以 大 量 利用 来 自任 意 “ 邻 居 ” 的 
信息 一 一 只 有 重复 相同 上 下 文 的 训练 样本 对 局 部 泛 化 有 用 。 为 了 克服 这 些 问题 ， 语 
言 模型 必须 能 够 在 一 个 词 和 其 他 语义 相似 的 词 之 间 共 享 知 识 。 

为 了 提高 n-gram 模型 的 统计 效率 ， 基 于 类 的 语言 模型 (class-based language 
model) (Brown et al., 1992; Ney and Kneser, 1993; Niesler et al., 1998) 引入 词类 别 
的 概念 ， 然 后 属于 同一 类 别 的 词 共享 词 之 间 的 统计 强度 。 这 个 想法 使 用 了 聚 类 算法 ， 
基于 它们 与 其 他 词 同 时 出 现 的 频率 ， 将 该 组 词 分 成 集群 或 类 。 随 后 ， 模 型 可 以 在 条 
件 竖 杠 的 右 侧 使 用 词类 ID 而 不 是 单个 词 ID。 混 合 (或 回 退 ) 词 模型 和 类 模型 的 复 
合 模型 也 是 可 能 的 。 尽 管 词 类 提供 了 在 序列 之 间 泛 化 的 方式 ， 但 其 中 一 些 词 被 相同 
类 的 另 一 个 替换 ， 导 致 该 表示 丢失 了 很 多 信息 。 




















12.4.2 ”神经 语言 模型 


神经 语言 模型 (Neural Language Model, NLM ) 是 一 类 用 来 克服 维 数 灾难 的 语 
言 模型 ， 它 使 用 词 的 分 布 式 表示 对 自然 语言 序列 建 模 (Bengio et al., 2001b)。 不 同 于 
基于 类 的 n-gram 模型 ， 神 经 语言 模型 在 能 够 识别 两 个 相似 的 词 ， 并 且 不 丧失 将 每 个 
词 编码 为 彼此 不 同 的 能 力 。 神 经 语言 模型 共享 一 个 词 ( 及 其 上 下 文 ) 和 其 他 类 似 词 
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(和 上 下 文 之 间 ) 的 统计 强度 。 模 型 为 每 个 词 学 习 的 分 布 式 表 示 ， 人 允许 模型 处 理 具有 
类 似 共同 特征 的 词 来 实现 这 种 共享 。 例 如 ， 如 果 词 dog 和 词 cat 映射 到 具有 许多 属 
性 的 表示 ,， 则 包含 词 cat 的 句子 可 以 告知 模型 对 包含 词 dog 的 句子 做 出 预测 , 反之 
亦 然 。 因 为 这 样 的 属性 很 多 ， 所 以 存在 许多 泛 化 的 方式 ， 可 以 将 信息 从 每 个 训练 语 
名 传递 到 指数 数量 的 语义 相关 语句 。 维 数 灾难 需要 模型 泛 化 到 指数 多 的 句子 〈 指数 
相对 句子 长 度 而 言 )。 该 模型 通过 将 每 个 训练 句子 与 指数 数量 的 类 似 句子 相关 联 克 服 
这 个 问题 。 

我 们 有 时 将 这 些 词 表示 称 为 FERA (word embedding )。 在 这 个 解释 下 , 我 们 将 
原始 符号 视 为 维度 等 于 词 表 大 小 的 空间 中 的 点 。 词 表示 将 这 些 点 怠 入 到 较 低 维 的 特 
征 空间 中 。 在 原始 空间 中 ， 每 个 词 由 一 个 one-hot 向 量 表示 ， 因 此 每 对 词 彼此 之 间 的 
欧 氏 距离 都 是 V2。 在 嵌入 空间 中 ， 经 常 出 现在 类 似 上 下 文 (或 共享 由 模型 学 习 的 一 
些 “特征 ”的 任何 词 对 ) 中 的 词 彼此 接近 。 这 通常 导致 具有 相似 含义 的 词 变 得 邻近 。 
图 12.3 放 大 了 学 到 的 词 嵌入 空间 的 特定 区 域 ， 我 们 可 以 看 到 语义 上 相似 的 词 如 何 映 
射 到 彼此 接近 的 表示 。 
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图 12.3: MIRZA HLA PER SY A AY EY AWE (Bahdanau et al., 2015)。 此 图 在 语义 相 
关 词 的 特定 区 域 放 大 ,它们 具有 彼此 接近 的 从 和 向量 。 国 家 在 左 图 ,数字 在 右 图 。 注 意 ， 这 些 衣 和 人 
是 为 了 可 视 化 才 表示 为 2 维 。 在 实际 应 用 中 ， 骨 人 通常 具有 更 高 的 维度 并 且 可 以 同时 捕获 词 之 间 
多 种 相似 性 。 


























其 他 领域 的 神经 网 络 也 可 以 定义 怠 人。 例如 ， 卷 积 网 络 的 隐藏 层 提 供 “图 像 赂 
入 ”。 因 为 自然 语言 最 初 不 在 实 值 向 量 空间 上 ， 所 以 NLP 从 业者 通常 对 藤 入 的 这 个 
想法 更 感 兴趣 。 隐 藏 层 在 表示 数据 的 方式 上 提供 了 更 质变 的 戏剧 性 变化 。 
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使 用 分 布 式 表 示 来 改进 自然 语言 处 理 模型 的 基本 思想 不 必 局 限于 神经 网 络 。 它 
还 可 以 用 于 图 模型 ， 其 中 分 布 式 表示 是 多 个 潜 变 量 的 形式 。 


12.4.3 ”高 维 输出 


在 许多 自然 语言 应 用 中 ， 我们 通常 希望 我 们 的 模型 产生 词 ( 而 不 是 字符 ) 作为 
输出 的 基本 单位 。 对 于 大 词汇 表 ， 由 于 词汇 量 很 大 , 在 词 的 选择 上 表示 输出 分 布 的 计 
算 成 本 可 能 非常 高 。 在 许多 应 用 中 ,，V 包含 数 十 万 词 。 表 示 这 种 分 布 的 朴素 方法 是 
应 用 一 个 仿 射 变换 ， 将 隐藏 表示 转换 到 输出 空间 ， 然 后 应 用 softmax 函数 。 假 设 我 
们 的 词汇 表 V 大 小 为 |V|。 因 为 其 输出 维 数 为 |V|， 描 述 该 仿 射 变换 线性 分 量 的 权重 
和 矩阵 非常 大 。 这 造成 了 表示 该 矩阵 的 高 存储 成 本 ， 以 及 与 之 相 乘 的 高 计算 成 本 。 
为 softmax 要 在 所 有 |V| 输出 之 间 归 一 化 ， 所 以 在 训练 时 以 及 测试 时 执行 全 和 矩阵 乘 
法 是 必要 的 一 一 我 们 不 能 仅 计算 与 正确 输出 的 权重 向 量 的 点 积 。 因 此 ， 输 出 层 的 高 
计算 成 本 在 训练 期 间 〈 计算 似 然 性 及 其 梯度 ) 和 测试 期 间 (计算 所 有 或 所 选 词 的 概 
率 ) 都 有 出 现 。 对 于 专门 的 损失 函数 ， 可 以 有 效 地 计算 梯度 (Vincent et al., 2015), 
但 是 应 用 于 传统 softmax 输出 层 的 标准 交叉 炉 损 失 时 会 出 现 许多 困难 。 

假设 h 是 用 于 预测 输出 概率 的 顶部 隐藏 层 。 如 果 我 们 使 用 学 到 的 权重 W 和 
学 到 的 偏 置 b 参数 化 从 h 到 的 变换 ， 则 仿 射 softmax 输出 层 执行 以 下 计算 : 





a; = bj Wishy, Wi € {1,...,|V|}, (12.8) 


了 
Q 


oo 
如 果 h 包含 n, 个 元 素 ， 则 上 述 操作 复杂 度 是 O(Vlnn)。 在 mn KATA |V| 数 十 
万 的 情况 下 ， 这 个 操作 占据 了 神经 语言 模型 的 大 多 数 计算 。 


ĝi (12.9) 


12.4.3.1 ”使 用 短 列表 





第 一 个 神经 语言 模型 (Bengio et al., 2001b, 2003) 通过 将 词汇 量 限 制 为 10,000 
或 20,000 来 减轻 大 词汇 表 上 softmax 的 高 成 本 。Schwenk and Gauvain (2002) 和 
Schwenk (2007) 在 这 种 方法 的 基础 上 建立 新 的 方式 ， 将 词汇 表 V 分 为 最 常见 词汇 
(由 神经 网 络 处 理 ) 的 短 列 表 (shortlist) L MARA TILA EIN T = V\L ( Hn- 
gram 模 型 处 理 )。 为 了 组 合 这 两 个 预测 ， 神 经 网 络 还 必须 预测 在 上 下 文 C 之 后 出 现 
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的 词 位 于 尾 列表 的 概率 。 我 们 可 以 添加 额外 的 sigmoid 输出 单元 估计 P(i eT |C) 
实现 这 个 预测 。 人 额外 输出 则 可 以 用 来 估计 V 中 所 有 词 的 概率 分 布 ， 如 下 : 


Ply=1i|C)=liexP(y=i|C,ieL)(1 -— P €T |C)) 
+lietP(y =i|C,ieT)PGiET|C), (12.10) 


其 中 P(y=i| C,ie L) 由 神经 语言 模型 提供 P(y =i |C, iec T) 由 n-gram 模型 提 
供 。 稍 作 修改 ， 这 种 方法 也 可 以 在 神经 语言 模型 模型 的 softmax 层 中 使 用 额外 的 输 
出 值 ， 而 不 是 单独 的 sigmoid 单元 。 

短 列 表 方 法 的 一 个 明显 缺点 是 ， 神 经 语言 模型 的 淤 在 泛 化 优势 仅 限 于 最 常用 的 
词 ， 这 大 概 是 最 没 用 的 。 这 个 缺点 引发 了 处 理 高 维 输出 替代 方法 的 探索 ， 如 下 所 述 。 


12.4.3.2 ”分 层 Softmax 


减少 大 词汇 表 V 上 高 维 输出 层 计算 负担 的 经 典 方法 (Goodman, 2001) 是 分 层 地 
分 解 概率 。|V| 因子 可 以 降低 到 log |V| 一 样 低 ， 而 无 需 执行 与 |V| 成 比例 数量 ( 并 且 
也 与 隐藏 单元 数量 mw 成 比例 ) 的 计算 。Bengio (2002) 和 Morin and Bengio (2005) 
将 这 种 因子 分 解 方法 引入 神经 语言 模型 中 。 

我 们 可 以 认为 这 种 层次 结构 是 先 建立 词 的 类 别 ， 然 后 是 词类 别 的 类 别 ， 然 后 是 
词类 别 的 类 别 的 类 别 等 等 。 这 些 般 套 类 别 构成 一 棵 树 ， 其 叶子 为 词 。 在 平衡 树 中 ， 
树 的 深度 为 log |V|。 选 择 一 个 词 的 概率 是 由 路 径 ( 从 树 根 到 包含 该 词 叶 子 的 路 径 ) 
上 上 的 每 个 节点 通 向 该 词 分 支 概率 的 乘积 给 出 。 图 12.4 是 一 个 简单 的 例子 。Mnih and 
Hinton (2009) 也 描述 了 使 用 多 个 路 径 来 识别 单个 词 的 方法 ， 以 便 更 好 地 建 模 具有 多 
个 含义 的 词 。 计 算 词 的 概率 则 涉及 在 导向 该 词 所 有 路 径 上 的 求 和 。 

为 了 预测 树 的 每 个 节点 所 需 的 条 件 概 率 ， 我 们 通常 在 树 的 每 个 节点 处 使 用 多 加 
回归 模型 ， 并 且 为 所 有 这 些 模型 提供 与 输入 相同 的 上 下 文 C。 因 为 正确 的 输出 编码 
在 训练 集中 , 我 们 可 以 使 用 监督 学 习 训 练 逻 辑 回 归 模 型 。 我 们 通常 使 用 标准 交叉 粹 损 
失 ， 对 应 于 最 大 化 正确 判断 序列 的 对 数 似 然 。 

因为 可 以 高 效 地 计算 输出 对 数 似 然 ( 低 至 log |V| 而 不 是 |V| )， 所 以 也 可 以 高 效 
地 计算 梯度 。 这 不 仅 包 括 关 于 输出 参数 的 梯度 ， 而 且 还 包括 关于 隐藏 层 激活 的 梯度 。 

优化 树 结 构 最 小 化 期 望 的 计算 数量 是 可 能 的 ， 但 通常 不 切实 际 。 给 定 词 的 相对 
频率 ， 信 息 理 论 的 工具 可 以 指定 如 何 选择 最 佳 的 二 进 制 编码 。 为 此 ， 我 们 可 以 构造 
树 , 使 得 与 词 相 关联 的 位 数量 近似 等 于 该 词 频率 的 对 数 。 然 而 在 实践 中 , 节省 计算 通 
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(0,0,0) (0,0,1) (0,1,0) (0,1,1) (1,0,0) (1,0,1) (1,1,0) (1,1,1) 


图 12.4: 词类 别 简单 层次 结构 的 示意 图 ， 其 中 8 个 词 wo,...,w7 组 织 成 三 级 层次 结构 。 树 的 叶 
子 表示 实际 特定 的 词 。 内 部 节点 表示 词 的 组 别 。 任 何 节点 都 可 以 通过 二 值 决策 序列 (0= AE, l= 
A) 索引 ， 从 根 到 达 节 点 。 超 类 (0) 包含 类 (0,0) 和 (0,1), 其 中 分 别 包含 词 {wo,2wi} 和 {we, ws} 
的 集合 ， 类 似 地 超 类 (1) 包含 类 (1,0) 和 (1 1)， 分 别 包含 词 {w4, ws} 和 {we,2w7}。 如 果树 充分 
平衡 ， 则 最 大 深度 (三 值 决策 的 数量 ) 与 词 数 |V| 的 对 数 同 阶 ， 从 |V| 个 词 中 选 一 个 词 只 需 执行 
O(log|V|) 次 操作 ( 从 根 开始 的 路 径 上 的 每 个 节点 一 次 操作 )。 在 该 示例 中 ， 我 们 乘 三 次 概率 就 能 
计算 词 y 的 概率 ， 这 三 次 概率 与 从 根 到 节点 y 的 路 径 上 每 个 节点 向 左 或 向 右 的 二 值 决 策 相 关联 。 
令 bily) 为 遍历 树 移 向 y 时 的 第 i 个 二 值 决策 。 对 输出 y 进行 采样 的 概率 可 以 通过 条 件 概率 的 链 
式 法 则 分 解 为 条 件 概 率 的 乘积 ， 其 中 每 个 节点 由 这 些 位 的 前 级 索引 。 例如 ,节点 (1,0) 对 应 于 前 级 
(bo(wa) = 1, bi(wa) =0)， 并 且 wa 的 概率 可 以 如 下 分 解 : 

































































Ply wa) P(bo 1, bi 0, b2 0) (12.11) 
= P(bo = 1)P(bi1 = 0 | bo = 1)P(b2 = 0 | bo = 1, bi = 0). (12.12) 
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稼 事倍功半 ， 因 为 输出 概率 的 计算 仅 是 神经 语言 模型 中 总 计算 的 一 部 分 。 例 如 ， 假 
WA | 个 全 连接 的 宽度 为 nr 的 隐藏 层 。 令 ny 是 识别 一 个 词 所 需 比 特 数 的 加 权 平 均 
值 ， 其 加 权 由 这 些 词 的 频率 给 出 。 在 这 个 例子 中 ， 计 算 隐 藏 激活 所 需 的 操作 数 增长 
为 Olling), MiB Oln) RÆ n < inj， 我们 可 以 通过 收缩 na 比 
收缩 ny 减少 更 多 的 计算 量 。 事实 上 ，n 通常 很 小 。 因 为 词汇 表 的 大 小 很 少 超过 一 
百 万 而 log,(10°) 20， 所 以 可 以 将 np 减 小 到 大 约 20, 但 nj WEKE, KAIN 
10° 或 更 大 。 我 们 可 以 定义 深度 为 2 和 分 支 因子 为 VIT| 的 树 ， 而 不 用 仔细 优化 分 支 
因子 为 2 的 树 。 这 样 的 树 对 应 于 简单 定义 一 组 互 斥 的 词类 。 基 于 深度 为 2 的 树 的 简 
单方 法 可 以 获得 层级 策略 大 部 分 的 计算 益处 。 

一 个 仍然 有 点 开放 的 问题 是 如 何 最 好 地 定义 这 些 词 类 ， 或 者 如 何 定义 一 般 的 词 
层次 结构 。 早 期 工作 使 用 现 有 的 层次 结构 (Morin and Bengio, 2005) ， 但 也 可 以 理想 
地 与 神经 语言 模型 联合 学 习 层 次 结构 。 学 习 层 次 结构 很 困难 。 对 数 似 然 的 精确 优化 
似乎 难以 解决 ， 因 为 词 层次 的 选择 是 离散 的 ， 不 适 于 基于 梯度 的 优化 。 然 而 ， 我 们 
可 以 使 用 离散 优化 来 近似 地 最 优化 词类 的 分 割 。 

分 层 softmax 的 一 个 重要 优点 是 ， 它 在 训练 期 间 和 测试 期 间 ( 如果 在 测试 时 我 
们 想 计算 特定 词 的 概率 ) 都 带 来 了 计算 上 的 好 处 。 

当然 即使 使 用 分 层 softmax， 计 算 所 有 |V| 个 词 概率 的 成 本 仍 是 很 高 的 。 另 一 个 
重要 的 操作 是 在 给 定 上 下 文中 选择 最 可 能 的 词 。 不 幸 的 是 ， 树 结构 不 能 为 这 个 问题 
提供 高 效 精确 的 解决 方案 。 

缺点 是 在 实践 中 , 分 层 softmax 倾向 于 更 差 的 测试 结果 ( 相对 基于 采样 的 方法 )， 
我 们 将 在 下 文 描述 。 这 可 能 是 因为 词类 选择 得 不 好 。 





12.4.3.3 ”重要 采样 


加 速 神经 语言 模型 训练 的 一 种 方式 是 ， 避 免 明 确 地 计算 所 有 未 出 现在 下 一 位 置 
的 词 对 梯度 的 贡献 。 每 个 不 正确 的 词 在 此 模型 下 具有 低 概率 。 枚 举 所 有 这 些 词 的 计 
算 成 本 可 能 会 很 高 。 相 反 ， 我 们 可 以 仅 采 样 词 的 子 集 。 使 用 式 (12.8) 中 引入 的 符号 ， 
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梯度 可 以 写成 如 下 形式 : 
alog P(y | C) _ Olog softmax, (a) 





BD a (12.13) 
o ev 
= 96 VE ea (12.14) 
5 (ty 一 lee) e%) (12.15) 
ty 
-EPU -i Op (12.16) 


其 中 a 是 presoftmax 激活 (或 得 分 ) 向 量 ， 每 个 词 对 应 一 个 元 素 。 第 一 项 是 正 相 
Daien phase) 项 ， 推 动 a, 向 上 ; 而 第 二 项 是 负 相 (negative phase) 项 ， 对 于 所 有 
i 以 权重 P(i | C) 推动 a; 向 下 。 由 于 负 相 项 是 期 望 值 ， 我 们 可 以 通过 蒙特 卡 罗 采 样 
估计 。 然 而 ， 这 将 需要 从 模型 本 刁 采 样 。 从 模型 中 采样 需要 对 词汇 表 中 所 有 的 i 计 

P(i| C)， 这 正 是 我 们 试图 避免 的 。 

我 们 可 以 从 另 一 个 分 布 中 采样 ， 而 不 是 从 模型 中 采样 ， 这 个 分 布 称 为 提议 分 布 
(proposal distribution ) (WX q )， 并 通过 适当 的 权重 校正 从 错误 分 布 采 样 引 入 的 偏 
差 (Bengio and Sénécal, 2003; Bengio and Sénécal, 2008)。 这 是 一 种 称 为 重要 采样 
(Importance Sampling ) 的 更 通用 技术 的 应 用 ， 我 们 将 在 第 12.4.3.3 节 中 更 详细 地 描 
述 。 不 幸 的 是 ， 即 使 精确 重要 采样 也 不 一 定 有 效 ， 因 为 我 们 需要 计算 权重 zi/w H 
中 的 p; = P(i | C) 只 能 在 计算 所 有 得 分 a; 后 才能 计算 。 这 个 应 用 采取 的 解决 方案 
称 为 有 偏重 要 采样 ， 其 中 重要 性 权重 被 归 一 化 加 和 为 1。 当 对 负 词 n; 进行 采样 时 ， 
相关 联 的 梯度 被 加 权 为 : 








Pu/ (12.17) 


red de 
这 些 权 重用 于 对 来 自 q 的 m 个 负 样 本 给 出 适当 的 重要 性 ， 以 形成 负 相 估 计 对 梯度 的 
贡献 


= 


M 75 T Aan, 

Fe io, not r (12.18) 

一 元 语法 或 二 元 语法 分 布 与 提议 分 布 g 工作 得 一 样 好 。 从 数据 估计 这 种 分 布 的 参数 
是 很 容易 。 在 估计 参数 之 后 ， 也 可 以 非常 高 效 地 从 这 样 的 分 布 采样 。 


重要 采样 (Importance Sampling) 不 仅 可 以 加 速 具有 较 大 softmax 输出 的 模 
型 。 更 一 般 地 ， 它 可 以 加 速 具 有 大 稀 玻 输出 层 的 训练 ， 其 中 输出 是 稀 朴 回 量 而 不 是 
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n 选 1。 其 中 一 个 例子 是 词 袋 (bag of words). 48 AA Mii lela v, HP v 表示 
词汇 表 中 的 词 i 存 不 存在 文档 中 。 或 者 ，vw; 可 以 指示 词 i 出 现 的 次 数 。 由 于 各 种 原 
因 ， 训 练 产生 这 种 稀 玖 向 量 的 机 响 学 习 模 型 的 成 本 可 能 很 高 。 在 学 习 的 早期 ， 模 型 
可 能 不 会 真 的 使 输出 真正 稀 芍 。 此 外 ， 将 输出 的 每 个 元 素 与 目标 的 每 个 元 素 进行 比 
较 ， 可 能 是 描述 训练 的 损失 函数 最 自然 的 方式 。 这 意味 着 稀 玻 输出 并 不 一 定 能 带 来 
计算 上 的 好 处 ， 因 为 模型 可 以 选择 使 大 多 数 输出 非 零 ， 并 且 所 有 这 些 非 零 值 需要 与 
相应 的 训练 目标 进行 比较 (即使 训练 目标 是 零 )。Dauphin et al. (2011) 证 明 可 以 使 
用 重要 采样 加 速 这 种 模型 。 高 效 算 法 最 小 化 “ 正 词 ”( 在 目标 中 非 零 的 那些 词 ) 和 相 
等 数量 的 “ 负 词 ”的 重 构 损 失 。 负 词 是 被 随机 选取 的 ， 如 使 用 启发 式 采样 更 可 能 被 误 
解 的 词 。 该 启发 式 过 采样 引入 的 偏差 则 可 以 使 用 重要 性 权重 校正 。 

在 所 有 这 些 情 况 下 ， 输 出 层 梯度 估计 的 计算 复杂 度 被 减少 为 与 负 样本 数量 成 比 
例 ， 而 不 是 与 输出 向 量 的 大 小 成 比例 。 




















12.4.3.4 ”噪声 对 比 估 计 和 排名 损失 


为 减少 训练 大 词汇 表 的 神经 语言 模型 的 计算 成 本 ， 研 究 者 也 提出 了 其 他 基于 采 
样 的 方法 。 早 期 的 例子 是 Collobert and Weston (2008a) 提出 的 排名 损失 ,将 神经 语 
言 模型 每 个 词 的 输出 视 为 一 个 得 分 ， 并 试图 使 正确 词 的 得 分 ay 比 其 他 词 a; 排名 更 
高 。 提 出 的 排名 损失 则 是 


L =~ max(0, 1 — ay + ai). (12.19) 
如 果 观 察 到 词 的 得 分 wy 远 超 过 负 词 的 得 分 ww (相差 大 于 1), WE i 项 梯度 为 零 。 
这 个 准则 的 一 个 问题 是 它 不 提供 估计 的 条 件 概率 ， 条 件 概 率 在 很 多 应 用 中 是 有 用 的 ， 
包括 语音 识别 和 文本 生成 ( 包括 诸如 翻译 的 条 件 文本 生成 任务 )。 
最 近 用 于 神经 语言 模型 的 训练 目标 是 噪声 对 比 估计 ， 将 在 第 18.6 节 中 介绍 。 这 
种 方法 已 成 功 应 用 于 神经 语言 模型 (Mnih and Teh, 2012; Mnih and Kavukcuoglu, 
2013)。 


12.4.4 结合 n-gram 和 神经 语言 模型 


n-gram 模型 相对 神经 网 络 的 主要 优点 是 n-gram 模型 具有 更 高 的 模型 容量 ( 通 
过 存储 非常 多 的 元 组 的 频率 )， 并 且 处 理 样本 只 需 非常 少 的 计算 量 ( 通过 查找 只 匹配 
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当前 上 下 文 的 几 个 元 组 ) 如 果 我 们 使 用 哈 希 表 或 树 来 访问 计数 , 那么 用 于 n-gram 的 
计算 量 几乎 与 容量 无 关 。 相 比 之 下 ， 将 神经 网 络 的 参数 数目 加 倍 通常 也 大 致 加 倍 计 
算 时 间 。 当 然 ， 避 人 免 每 次 计算 时 使 用 所 有 参数 的 模型 是 一 个 例外 。 髋 入 层 每 次 只 索 
引 单 个 嵌入 ， 所 以 我 们 可 以 增加 词汇 量 ， 而 不 会 增加 每 个 样本 的 计算 时 间 。 一 些 其 
他 模型 ， 例 如 平 铺 卷 积 网 络 ， 可 以 在 减少 参数 共享 程度 的 同时 添加 参数 以 保持 相同 
的 计算 量 。 然 而 ， 基 于 矩阵 乘法 的 典型 神经 网 络 层 需要 与 参数 数量 成 比例 的 计算 量 。 

因此 ， 增 加 容量 的 一 种 简单 方法 是 将 两 种 方法 结合 ， 由 神经 语言 模型 和 n- 
gram 语言 模型 组 成 集成 (Bengio et al., 2001b, 2003). 

对 于 任何 集成 ,如果 集成 成 员 产 生 独 立 的 错误 ,这 种 技术 可 以 减少 测试 误差 。 集 
成 学 习 领 域 提 供 了 许多 方法 来 组 合集 成 成 员 的 预测 ， 包 括 统一 加 权 和 在 验证 集 上 选 
择 权重 。Mikolov et al. (2011a) 扩展 了 集成 ， 不 是 仅 包括 两 个 模型 ， 而 是 包括 大 量 
模型 。 我 们 也 可 以 将 神经 网 络 与 最 大 炉 模 型 配对 并 联合 训练 (Mikolov et al., 2011b)。 
该 方法 可 以 被 视 为 训练 具有 一 组 额外 输入 的 神经 网 络 ， 额 外 输入 直接 连接 到 输出 并 
且 不 连接 到 模型 的 任何 其 他 部 分 。 额 外 输入 是 输入 上 下 文中 特定 n-gram 是 否 存 在 
的 指示 器 ， 因 此 这 些 变量 是 非常 高 维 且 非常 稀 玻 的 。 

模型 容量 的 增加 是 巨大 的 ( 架构 的 新 部 分 包含 高 达 |sV|” 个 参数 )， 但 是 处 理 输 
入 所 需 的 额外 计算 量 是 很 小 的 ( 因为 额外 输入 非常 稀疏 )。 

















12.4.5 ”神经 机 器 翻译 








机 器 翻 译 以 一 种 自然 语言 读 取 句子 并 产生 等 同 含义 的 另 一 种 语言 的 句子 。 机 带 
翻译 系统 通常 涉及 许多 组 件 。 在 高 层次 , 一 个 组 件 通常 会 提出 许多 候选 翻译 。 由 于 语 
言 之 间 的 差异 ， 这 些 翻译 中 的 许多 翻译 是 不 符合 语法 的 。 例 如 ， 许 多 语言 在 名 词 后 
放置 形容 词 ， 因 此 直接 翻译 成 英语 时 ， 它 们 会 产生 诸如 “apple red” 的 短语 。 提 议 机 
制 提出 建议 翻译 的 许多 变 体 ， 理 想 情 况 下 应 包括 “red apple”。 翻 译 系统 的 第 二 个 组 
成 部 分 (语言 模型 ) 评估 提议 的 翻译 ， 并 可 以 评估 “red apple” 比 “apple red” 更 好 。 

最 早 的 机 器 翻译 神经 网 络 探索 中 已 经 纳入 了 编码 需 和 解码 需 的 想法 (Allen 1987; 
Chrisman 1991; Forcada and Neco 1997)， 而 翻译 中 神经 网 络 的 第 一 个 大 规模 有 竞 
争 力 的 用 途 是 通过 神经 语言 模型 升级 翻译 系统 的 语言 模型 (Schwenk et al., 2006; 
Schwenk, 2010)。 之 前 ， 大 多 数 机 器 翻译 系统 在 该 组 件 使 用 n-gram 模型 。 机 器 翻译 
中 基于 n-gram 的 模型 不 仅 包括 传统 的 回 退 n-gram W, MARA Sy 
(maximum entropy language models)， 其 中 给 定 上 下 文中 常见 的 词 ，aftine-softmax 
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层 预测 下 一 个 词 。 

传统 语言 模型 仅仅 报告 自然 语言 句子 的 概率 。 因 为 机 器 翻译 涉及 给 定 输入 句子 
产生 输出 句子 ， 所 以 将 自然 语言 模型 扩展 为 条 件 的 是 有 意义 的 。 如 第 6.2.1.1 节 所 述 
可 以 直接 地 扩展 一 个 模型 ， 该 模型 定义 某 些 变量 的 边缘 分 布 ， 以 便 在 给 定 上 下 文 
C (C 可 以 是 单个 变量 或 变量 列表 ) 的 情况 下 定义 该 变量 的 条 件 分 布 。Devlin et al. 
(2014) 在 一 些 统计 机 器 翻译 的 基准 中 击败 了 最 先进 的 技术 ， 他 给 定 源 语言 中 的 短语 
$1,82,...,S 后 使 用 MLP 对 目标 语言 的 短语 ty, te,..., te 进行 评分 。 这 个 MLP fii 
th P(ty, to,..., te |81;S2;... ;Sk)。 这 个 MLP 的 估计 替代 了 条 件 n-gram 模型 提供 的 
估计 。 

基于 MLP 方法 的 缺点 是 需要 将 序列 预 处 理 为 固定 长 度 。 为 了 使 翻译 更 加 灵活 ， 
我 们 希望 模型 允许 可 变 的 输入 长 度 和 输出 长 度 。RNN 具备 这 种 能 力 。 第 10.2.4 节 描 
述 了 给 定 某 些 输入 后 ， 关 于 序列 条 件 分 布 RNN 的 几 种 构造 方法 ， 并 且 第 10.4 节 描 
述 了 当 输 入 是 序列 时 如 何 实现 这 种 条 件 分 布 。 在 所 有 情况 下 ， 一 个 模型 首先 读 取 输 
入 序列 并 产生 概括 输入 序列 的 数据 结构 。 我 们 称 这 个 概括 为 “上 下 文 ” C。 上 下 文 C 
可 以 是 向 量 列 表 ， 或 者 向 量 或 张 量 。 读 取 输 入 以 产生 C 的 模型 可 以 是 RNN (Cho 
et al., 2014b; Sutskever et al., 2014; Jean et al., 2014) 或 卷 积 网 络 (Kalchbrenner and 
Blunsom, 2013)。 男 一 个 模型 (通常 是 RNN )， 则 读 取 上 下 文 C 并 且 生 成 目标 语言 
的 句子 。 在 图 12.5 中 展示 了 这 种 用 于 机 器 翻译 的 编码 器 -解码 器 框架 的 总 体 思想 。 

为 生成 以 源 句 为 条 件 的 整 句 , 模型 必须 具有 表示 整个 源 句 的 方式 。 早 期 模型 只 能 
表示 单个 词 或 短语 。 从 表示 学 习 的 观点 来 看 , 具有 相同 含义 的 句子 具有 类 似 表示 是 有 
用 的 , 无 论 它们 是 以 源 语言 还 是 以 目标 语言 书写 。 研究 者 首先 使 用 卷 积 和 RNN 的 组 
合 探索 该 策略 (Kalchbrenner and Blunsom, 2013)。 后 来 的 工作 介绍 了 使 用 RNN 对 
所 提议 的 翻译 进行 打分 (Cho et al., 2014b) 或 生成 翻译 句子 (Sutskever et al., 2014)。 
Jean et al. (2014) 将 这 些 模型 扩展 到 更 大 的 词汇 表 。 























12.4.5.1 ”使 用 注意 力 机 制 并 对 齐 数据 片段 


使 用 固定 大 小 的 表示 概括 非常 长 的 句子 (例如 60 个 词 ) 的 所 有 语义 细节 是 非 
第 困难 的 。 这 需要 使 用 足够 大 的 RNN， 并 且 用 足够 长 时 间 训 练 得 很 好 才能 实现 ， 如 
Cho et al. (2014b) 和 Sutskever et al. (2014) 所 表明 的 。 然 而 ， 更 高 效 的 方法 是 先 
读 取 整个 句子 或 段落 ( 以 获得 正在 表达 的 上 下 文 和 焦点 ) ， 然 后 一 次 翻译 一 个 词 ， 
每 次 聚焦 于 输入 句子 的 不 同 部 分 来 收集 产生 下 一 个 输出 词 所 需 的 语义 细节 。 这 正 
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Output object (English 
Sentence) 


Decoder 


Intermediate, semantic representation 


Encoder 


Source object (French sentence or image) 














图 12.5: 编码 咒 - 解 码 器 架构 在 直观 表示 〈 例如 词 序列 或 图 像 ) 和 语义 表示 之 间 来 回 映射 。 使 用 来 
自 一 种 模 态 数据 的 编码 顺和 输 出 〈 例如 从 法 语句 子 到 捕获 句子 含义 的 隐藏 表示 的 编码 器 映射 ) 作为 
用 于 另 一 模 态 的 解码 器 输入 如 解码 器 将 捕获 句子 含义 的 隐藏 表示 映射 到 英语 )， 我 们 可 以 训练 将 
一 种 模 态 转换 到 另 一 种 模 态 的 系统 。 这 个 想法 已 经 成 功 应 用 于 很 多 领域 ， 不 仅仅 是 机 器 翻译 ， 还 
包括 为 图 像 生成 标题 。 












































是 Bahdanau et al. (2015) 第 一 次 引入 的 想法 。 图 12.6 中 展示 了 注意 力 机 和 
个 时 间 步 关注 输入 序列 的 特定 部 分 。 
我 们 可 以 认为 基于 注意 力 机 制 的 系统 有 三 个 组 件 : 





ee 
Vid 
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H 








。 读 取 咒 读 取 原 始 数据 (例如 源 语句 中 的 源 词 ) 并 将 其 转换 为 分 布 式 表示 ， 其 
一 个 特征 向 量 与 每 个 词 的 位 置 相关 联 。 


H 








o TENE tie FF MAr h PARP OE Dd ae AS A A A E RKF A Hi 
器 ， 而 之 后 不 必 以 相同 的 顺序 从 中 检索 ， 也 不 必 访 问 全 部 。 


。 最 后 一 个 程序 利用 存储 顺 的 内 容 顺 序 地 执行 任务 ， 每 个 时 间 步 聚焦 于 某 个 存储 
器 元 素 的 内 容 《〈 或 几 个 ， 具 有 不 同 权重 )。 


第 三 组 件 可 以 生成 翻译 语句 。 

当 用 一 种 语言 书写 的 句子 中 的 词 与 另 一 种 语言 的 翻译 语句 中 的 相应 词 对 齐 时 ， 
可 以 使 对 应 的 词 嵌入 相关 联 。 早 期 的 工作 表明 ， 我 们 可 以 学习 将 一 种 语言 中 的 词 
蔚 入 与 为 一 种 语言 中 的 词 姐 入 相关 联 的 翻译 矩阵 (Kogisky et al., 2014)， 与 传统 
的 基于 短语 表 中 频率 计数 的 方法 相 比 ， 可 以 产生 较 低 的 对 齐 错误 率 。 更 早 的 工作 
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图 12.6: 由 Bahdanau et al. (2015) 引入 的 现代 注意 力 机 制 ， 本 质 上 是 加 权 平 均 。 注 意 力 机 制 对 有 具 
有 权重 at 的 特征 向 量 ht?) 进行 加 权 平 均 形 成 上 下 文 向 量 ec。 在 一 些 应 用 中 ， 特 征 向 量 h 是 神经 
网 络 的 隐藏 单元 ， 但 它们 也 可 以 是 模型 的 原始 和 输入。 权重 aO 由 模型 本 身 产生 。 它 们 通常 是 区 间 
(0,1) 中 的 值 ， 并 且 旨 在 仅仅 集中 在 单个 hO 周围 ， 使 得 加 权 平 均 精 确 地 读 取 接近 一 个 特定 时 间 
步 的 特征 向 量 。 权 重 aO 通常 由 模型 男 一 部 分 发 出 的 相关 性 得 分 应 用 softmax 函数 后 产生 。 注 意 
力 机 制 在 计算 上 需要 比 直接 索引 期 望 的 WO 付出 更 高 的 代价 ， 但 直接 索引 不 能 使 用 梯度 下 降 训 练 。 
基于 加 权 平 均 的 注意 力 机 制 是 平滑 、 可 微 的 近似 ， 可 以 使 用 现 有 优化 算法 训练 。 
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(Klementiev et al., 2012) 也 对 跨 语 言词 向 量 进 行 了 研究 。 这 种 方法 的 存在 很 多 扩展 。 
例如 ， 允 许 在 更 大 数据 集 上 训练 的 更 高 效 的 跨 语言 对 齐 (Gouws et al., 2014) 。 


12.46 ”历史 展望 


在 对 反 向 传播 的 第 一 次 探索 中 ，Rumelhart et al. (1986a) 等 人 提出 了 分 布 式 表 
示 符 号 的 思想 ， 其 中 符号 对 应 于 族 成 员 的 身份 ， 而 神经 网 络 捕获 族 成 员 之 间 的 关系 ， 
训练 样本 形成 三 元 组 如 ( Colin，Mother，Victoria )。 神 经 网 络 的 第 一 层 学 习 每 个 族 
成 员 的 表示 。 例 如 ，Colin 的 特征 可 能 代表 Colin 所 在 的 族 树 ， 他 所 在 树 的 分 支 ， 他 
来 自 哪 一 代 等 等 。 我 们 可 以 将 神经 网 络 认 为 是 将 这 些 属性 关联 在 一 起 的 计算 学 习 规 
则 ， 可 以 获得 期 望 预测 。 模 型 则 可 以 进行 预测 ， 例 如 推断 谁 是 Colin 的 母亲 。 

Deerwester et al. (1990) 将 符号 能 人 的 想法 扩展 到 对 词 的 和 庶 入 。 这 些 能 人 使 用 
SVD %3, Za, mA HAMAS . 

自然 语言 处 理 的 历史 是 由 流行 表示 (对 模型 输入 不 同方 式 的 表示 ) 的 变化 为 
标志 的 。 在 早期 对 符号 和 词 建 模 的 工作 之 后 ， 神 经 网 络 在 NLP 上 一 些 最 早 的 应 用 
(Miikkulainen and Dyer; 1991; Schmidhuber, 1996) 将 输入 表示 为 字符 序列 。 

Bengio et al. (2001b) 将 焦点 重新 引 到 对 词 建 模 并 引入 神经 语言 模型 ， 能 产生 可 
解释 的 词 伐 入。 这 些 神 经 模型 已 经 从 在 一 小 组 符号 上 的 定义 表示 (20 世纪 80 ER ) 
扩展 到 现代 应 用 中 的 数 百 万 字 ( 包括 专 有 名 词 和 拼写 错误 )。 这 种 计算 扩展 的 努力 导 
致 了 第 12.4.3 节 中 描述 的 技术 发 明 。 

最 初 ， 使 用 词 作为 语言 模型 的 基本 单元 可 以 改进 语言 建 模 的 性 能 (Bengio et al., 
2001b)。 而 今 ， 新 技术 不 断 推动 基于 字符 (Sutskever et al., 2011) ) 和 基于 词 的 模型 
向 前 发 展 ， 最 近 的 工作 (Gillick et al., 2015) 甚至 建 模 Unicode 字符 的 单个 字 节 。 

神经 语言 模型 背后 的 思想 已 经 扩展 到 多 个 自然 语言 处 理应 用 ， 如 解析 (Hender- 
son, 2003, 2004; Collobert, 2011)、 词 性 标注 、 语 义 角 色 标 注 、 分 块 等 ， 有 时 使 用 
共享 词 租 入 的 单一 多 任务 学 习 架 构 (Collobert and Weston, 2008a; Collobert et al., 
2011a)。 


随 着 t-SNE 降 维 算法 的 发 展 (van der Maaten and Hinton, 2008) 以 及 Joseph 
Turian 在 2009 年 引入 的 专用 于 可 视 化 词 退 入 的 应 用 ， 用 于 分 析 语 言 模型 通 入 的 二 
维 可 视 化 成 为 一 种 流行 的 工具 。 
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12.5 ”其 他 应 用 





在 本 节 中 ， 我 们 介绍 深度 学 习 一 些 其 他 类 型 的 应 用 ， 它 们 与 上 面 讨论 的 标准 对 
象 识 别 、 语 音 识 别 和 自然 语言 处 理 任务 不 同 。 本 书 的 第 三 部 分 将 扩大 这 个 范围 ， 甚 
至 进一步 扩展 到 仍 是 目前 主要 研究 领域 的 任务 。 








12.5.1 ”推荐 系统 


言 息 技 术 部 门 中 机 需 学 习 的 主要 应 用 之 一 是 向 潜在 用 户 或 客户 推荐 项 目 。 这 可 
以 分 为 两 种 主要 的 应 用 : 在 线 广告 和 项 目 建 议 (通常 这 些 建 议 的 目的 仍然 是 为 了 销 
售 产品 )。 两 者 都 依赖 于 预测 用 户 和 项 目 之 间 的 关联 ， 一 旦 癌 该 用 户 展示 了 广告 或 推 
荐 了 该 产品 ， 推 荐 系统 要 么 预测 一 些 行为 的 概率 〈 用 户 购买 产品 或 该 行为 的 一 些 代 
替 ) 或 预期 增益 〈 其 可 取决 于 产品 的 价值 )。 目 前 ， 互 联网 的 资金 主要 来 自 于 各 种 形 
式 的 在 线 广告 。 经 济 的 主要 部 分 依靠 网 上 购物 。 包 括 Amazon 和 eBay 在 内 的 公司 
都 使 用 了 机 器 学 习 〈 包 括 深度 学 习 ) 推荐 他 们 的 产品 。 有 时 ， 项 目 不 是 实际 出 售 的 
产品 。 如 选择 在 社交 网 络 新 闻 信息 流 上 显示 的 帖子 、 推 荐 观看 的 电影 、 推 荐 笑话 、 推 
荐 专家 建议 、 匹 配 视频 游戏 的 玩家 或 匹配 约会 的 人 。 

通常 ， 这 种 关联 问题 可 以 作为 监督 学 习 问 题 来 处 理 : 给 出 一 些 关于 项 目 和 关于 
用 户 的 信息 ， 预 测 感 兴 趣 的 行为 (用户 点 击 广 告 、 输 入 评级 、 点 击 “ 喜 欢 ” 按 钮 、 购 
买 产品 ， 在 产品 上 伦 钱 、 花 时 间 访 问 产品 页 面 等 )。 通 党 这 最 终 会 归结 到 回归 问题 
(预测 一 些 条 件 期 望 值 ) 或 概率 分 类 问题 ( 预测 一 些 离散 事件 的 条 件 概率 )。 

早期 推荐 系统 的 工作 依赖 于 这 些 预测 输入 的 最 小 信息 : 用 户 ID 和 项 目 ID, 在 
这 种 情况 下 ， 唯 一 的 泛 化 方式 依赖 于 不 同 用 户 或 不 同 项 目的 目标 变量 值 之 间 的 模式 
相似 性 。 假 设 用 户 1 和 用 户 2 都 喜欢 项 目 A，B 和 C. 由 此 ,我们 可 以 推断 出 用 户 
1 和 用 户 2 具有 类 似 的 口味 。 如 果 用 户 1 喜欢 项 上 日 D， 那么 这 可 以 强烈 提示 用 户 2 
也 喜欢 D。 基 于 此 原理 的 算法 称 为 协同 过 滤 ( collaborative filtering )。 非 参数 方法 
(例如 基于 估计 偏好 模式 之 间 相 似 性 的 最 近邻 方法 ) 和 参数 方法 都 可 能 用 来 解决 这 个 
问题 。 参 数 方法 通常 依赖 于 为 每 个 用 户 和 每 个 项 目 学 习 分 布 式 表 示 (AER AKA )。 
目标 变量 的 双 线 性 预测 ( 例如 评级 ) 是 一 种 简单 的 参数 方法 , 这 种 方法 非常 成 功 , 通 
第 被 认为 是 最 先进 系统 的 组 成 部 分 。 通 过 用 户 和 入 和 项 目 般 入 之 间 的 点 积 (可 能 需 
要 使 用 仅 依赖 于 用 户 ID 或 项 目 ID 的 常数 来 校正 ) 获得 预测 。 令 REBER 
WEE, A 和 矩阵 行 中 是 用 户 般 和 信 ，B 和 矩阵 列 中 具有 项 目 般 入 。 令 b 和 ec 是 分 别 包 
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含 针 对 每 个 用 户 ( 表示 用 户 平常 坏 脾 气 或 积极 的 程度 ) 以 及 每 个 项 目 (表示 其 大 体 
受 欢 迎 程度 ) 的 偏 置 向 量 。 因 此 ， 双 线性 预测 如 下 获得 : 
Rui = bu + ci +Y AujBju. (12.20) 
J 

通常 ， 人 们 希望 最 小 化 预测 评级 Rai 和 实际 评级 Rui ZENE, “APA 
和 项 目 舱 入 首次 缩小 到 低 维度 (两 个 或 三 个 ) 时 ， 它 们 就 可 以 方便 地 可 视 化 ， 或 者 
可 以 将 用 户 或 项 目 彼 此 进行 比较 ORARIA )。 获 得 这 些 能 入 的 一 种 方式 是 对 实际 
目标 (例如 评级 ) 的 矩阵 R 进行 奇异 值 分 解 。 这 对 应 于 将 R= UDV (或 归 一 化 
的 变 体 ) 分 解 为 两 个 因子 的 乘积 ， 低 秩 和 矩阵 A = UD 和 B= 及 。SVD 的 一 个 问题 
是 它 以 任意 方式 处 理 缺 失 条 目 ， 如 同 它们 对 应 于 目标 值 0。 相 反 , 我 们 和 希望 避免 为 缺 
失 条 目 做 出 的 预测 付出 任何 代价 。 幸 运 的 是 ， 观 察 到 的 评级 的 平方 误差 总 和 也 可 以 
使 用 基于 梯度 的 优化 最 小 化 。SVD 和 式 (12.20) 中 的 双 线 性 预测 在 Netflix 奖 竞赛 中 
(目的 是 仅 基于 大 量 匿名 用 户 的 之 前 评级 预测 电影 的 评级 ) 表现 得 非常 好 (Bennett 
and Lanning, 2007)。 许 多 机 需 学 习 专 家 参加 了 2006 年 和 2009 年 之 间 的 这 场 比赛 。 
它 提 高 了 使 用 先进 机 器 学 习 的 推荐 系统 的 研究 水 平 ， 并 改进 了 推荐 系统 。 即 使 简单 
的 双 线 性 预测 或 SVD 本 吴 并 没有 赢得 比赛 , 但 它 是 大 多 数 欧 争 对 手提 出 的 整体 模型 
中 一 个 组 成 部 分 ， 包 括 胜 者 (Toscher et al., 2009; Koren, 2009). 

除了 这 些 具 有 分 布 式 表 示 的 双 线 性 模型 之 外 , 第 一 次 用 于 协同 过 滤 的 神经 网 络 之 
一 是 基于 RBM 的 无 向 概率 模型 (Salakhutdinov et al., 2007)。RBM 是 Netflix 比 
赛 获胜 方法 的 一 个 重要 组 成 部 分 (Tascher et al., 2009; Koren, 2009)。 神 经 网 络 社 群 
中 也 已 经 探索 了 对 评级 矩阵 进行 因子 分 解 的 更 高 级 变 体 (Salakhutdinov and Mnih, 
2008)。 


然而 ， 协 同 过 滤 系 统 有 一 个 基本 限制 : 当 引 入 新 项 目 或 新 用 户 时 ， 缺 乏 评 级 历 
意味 着 无 法 评估 其 与 其 他 项 目 或 用 户 的 相似 性 ， 或 者 说 无 法 评估 新 的 用 户 和 现 有 
项 目的 联系 。 这 被 称 为 冷 启动 推荐 问题 。 解 决 冷 启 动 推荐 问题 的 一 般 方式 是 引入 单 
个 用 户 和 项 目的 额外 信息 。 例 如 ， 该 额外 信息 可 以 是 用 户 简 要 信息 或 每 个 项 目的 特 
征 。 使 用 这 种 信息 的 系统 被 称 为 基于 内 容 的 推荐 系统 (content-based recommender 
system)。 从 丰富 的 用 户 特 征 或 项 目 特征 集 到 磐 人 的 映射 可 以 通过 深度 学 习 架 构 学 习 
(Huang et al., 2013; Elkahky et al., 2015). 
专用 的 深度 学 习 架 构 ， 如 卷 积 网 络 已 经 应 用 于 从 丰富 内 容 中 提取 特征 ， 如 提取 
用 于 音乐 推荐 的 音乐 音 轨 (van den Oörd et al., 2013)。 在 该 工作 中 ， 卷 积 网 络 将 声 
学 特征 作为 输入 并 计算 相关 歌曲 的 能 入 。 该 歌曲 从 入 和 用 户 通 入 之 间 的 点 积 则 可 以 
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预测 用 户 是 否 将 收听 该 歌曲 。 


12.5.1.1 ”探索 与 开发 


当 向 用 户 推 荐 时 ， 会 产生 超出 普通 监督 学 习 范 围 的 问题 ， 并 进入 强化 学 习 的 领 
域 。 理 论 上 ,许多 推荐 问题 最 准确 的 描述 是 contextual bandit(Langford and Zhang, 
2008; Lu et al., 2010)。 问 题 是 ， 当 我 们 使 用 推荐 系统 收集 数据 时 ， 我 们 得 到 是 一 个 
有 偏 旦 不 完整 的 用 户 偏 好 观 : 我 们 只 能 看 到 用 户 对 推荐 给 他 们 项 目的 反应 ， 而 不 是 
其 他 项 目 。 此 外 ， 在 某 些 情况 下 ， 我 们 可 能 无 法 获得 未 向 其 进行 推荐 的 用 户 的 任何 
言 息 〈 例 如 ， 在 广告 竞价 中 ， 可 能 是 广告 的 建议 价格 低 于 最 低 价 格 阔 值 ， 或 者 没有 
赢得 竞价 ， 因 此 广告 不 会 显示 )。 更 重要 的 是 ， 我 们 不 知道 推荐 任何 其 他 项 目 会 产生 
什么 结果 。 这 就 像 训练 一 个 分 类 器 ， 为 每 个 训练 样本 z 挑选 一 个 类 别 (通常 是 基 
于 模型 最 高 概率 的 类 别 )， 然 后 只 能 获得 该 类 别 正 确 与 否 的 反馈 。 显 然 ， 每 个 样本 传 
达 的 信息 少 于 监督 的 情况 ( 其 中 真实 标签 y 是 可 直接 访问 的 )， 因 此 需要 更 多 的 样 
本 。 更 糟糕 的 是 ， 如 果 我 们 不 够 小 心 ， 即 使 收集 越 来 越 多 的 数据 ， 我 们 得 到 的 系统 
可 能 会 继续 选择 错误 的 决定 ， 因 为 正确 的 决定 最 初 具 有 很 低 的 概率 : 直到 学 习 者 选 
择 正 确 的 决定 之 前 ,该 系统 都 无 法 学 习 正 确 的 决定 。 这 类 似 于 强化 学 习 的 情况 ， 其 
中 仅 观察 到 所 选 动作 的 奖励 。 一 般 来 说 ， 强 化 学 习 会 涉及 许多 动作 和 许多 奖励 的 序 
Fijo bandit 情景 是 强化 学 习 的 特殊 情况 ， 其 中 学 习 者 仅 采取 单一 动作 并 接收 单个 奖 
WH. bandit 问题 在 学 习 者 知道 哪个 奖励 与 哪个 动作 相关 联 的 时 更 容易 。 在 一 般 的 强 
化 学 习 场 景 中 ， 高 奖励 或 低 奖励 可 能 是 由 最 近 的 动作 或 很 入 以 前 的 动作 引起 的 。 术 
if contextual bandit ( contextual bandit ) 指 的 是 在 一 些 输 入 变量 可 以 通知 决定 的 
上 下 文中 采取 动作 的 情况 。 例 如 ， 我 们 至 少 知道 用 户 身 份 ， 并 且 我 们 要 选择 一 个 项 
目 。 从 上 下 文 到 动作 的 映射 也 称 为 策略 (policy )。 学 习 者 和 数据 分 布 ( 现在 取决 于 
学 习 者 的 动作 ) 之 间 的 反馈 循环 是 强化 学 习 和 bandit 研 究 的 中 心 问题 。 

强化 学 习 需 要 权衡 探索 (exploration ) 与 F£ (exploitation )。 开 发 指 的 是 从 
目前 学 到 的 最 好 策略 采取 动作 ， 也 就 是 我 们 所 知 的 将 获得 高 奖励 的 动作 。 探 索 
(exploration ) 是 指 采取 行动 以 获得 更 多 的 训练 数据 。 如 果 我 们 知道 给 定 上 下 文 g, 
动作 a 给 予 我 们 1 的 奖励 ， 但 我 们 不 知道 这 是 否 是 最 好 的 奖励 。 我 们 可 能 想 利 用 我 
们 目前 的 策略 ， 并 继续 采取 行动 a 相对 肯定 地 获得 1 的 奖励 。 然 而 ， 我 们 也 可 能 想 
通过 尝试 动作 a! 来 探索 。 我 们 不 知道 尝试 动作 d 会 发 生 什 么 。 我 们 希望 得 到 2 的 
奖励 ， 但 有 获得 0 奖励 的 风险 。 无 论 如 何 ， 我 们 至 少 获得 了 一 些 知识 。 
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探索 (exploration) 可 以 以 许多 方式 实现 ， 从 覆盖 可 能 动作 的 整个 空间 的 随机 
动作 到 基于 模型 的 方法 ( 基于 预期 回报 和 模型 对 该 回报 不 确定 性 的 量 来 计算 动作 的 
选择 )。 

许多 因素 决定 了 我 们 喜欢 探索 或 开发 的 程度 。 最 突出 的 因素 之 一 是 我 们 感 兴 
的 时 间 尺 度 。 如 果 代 理 只 有 短暂 的 时 间 积累 奖励 ， 那 么 我 们 喜欢 更 多 的 开发 。 如 果 
代理 有 很 长 时 间 积 累 奖 励 ， 那 么 我 们 开始 更 多 的 探索 ， 以 便 使 用 更 多 的 知识 更 有 效 
地 规划 未 来 的 动作 。 

监督 学 习 在 探索 或 开发 之 间 没 有 权衡 ， 因 为 监督 信号 总 是 指定 哪个 输出 对 于 每 
个 输入 是 正确 的 。 我 们 总 是 知道 标签 是 最 好 的 输出 ， 没 有 必要 尝试 不 同 的 输出 来 确 
定 是 否 优 于 模型 当前 的 输出 。 

除了 权衡 探索 和 开发 之 外 ， 强 化 学 习 青 景 下 出 现 的 另 一 个 困难 是 难以 评估 和 比 
较 不 同 的 策略 。 强 化 学 习 包 括 学 习 者 和 环境 之 间 的 相互 作用 。 这 个 反馈 回路 意味 着 
使 用 固定 的 测试 集 输入 评估 学 习 者 的 表现 不 是 直接 的 。 策 略 本 身 确定 将 看 到 哪些 输 
Ao Dudik et al. (2011) 提出 了 评估 contextual bandit 的 技术 。 


12.5.2 ”知识 表示 、 推 理 和 回答 


因为 使 用 符号 (Rumelhart et al., 1986a) 和 词 租 人 (Deerwester et al., 1990; 
Bengio et al., 2001b)， 深 度 学 习 方 法 在 语言 模型 、 机 器 翻译 和 自然 语言 处 理 方面 非 
第 成 功 。 这 些 舱 入 表示 关于 单个 词 或 概念 的 语义 知识 。 研 究 前 沿 是 为 短语 或 词 和 事 
实 之 间 的 关系 开发 舰 入。 搜索 引擎 已 经 使 用 机 器 学 习 来 实现 这 一 目的 ,但 是 要 改进 
这 些 更 高 级 的 表示 还 有 许多 工作 要 做 。 


12.5.2.1 ” 知识、 联系 和 回答 


一 个 有 趣 的 研究 方向 是 确定 如 何 训 练 分 布 式 表 示 才 能 捕获 两 个 实体 之 间 的 关系 
(relation )。 

数学 中 ， 二 元 关系 是 一 组 有 序 的 对 象 对 。 集 合 中 的 对 具有 这 种 关系 ， 而 那些 不 
在 集合 中 的 对 则 没有 。 例 如 , 我们 可 以 在 实体 集 {1,2, 3} 上 定义 关系 “小 于 ”来 定义 
有 序 对 的 集合 S = {(1,2),(1,3),(2,3)}。 一 旦 这 个 关系 被 定义 ， 我 们 可 以 像 动词 一 样 
使 用 它 。 因 为 (1,2) ES， 我 们 说 1 小 于 2。 因 为 (2,1) &S， 我 们 不 能 说 2 小 于 1。 
当然 ， 彼 此 相关 的 实体 不 必 是 数字 。 我 们 可 以 定义 关系 is_a_type_of 包含 如 ( 狗 ， 
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哺乳 动物 ) 的 元 组 。 

在 AI 的 背景 下 , 我们 将 关系 看 作 句 法 上 简单 旦 高 度 结构 化 的 语言 。 关 系 起 到 动 
词 的 作用 ， 而 关系 的 两 个 参数 发 挥 着 主体 和 客体 的 作用 。 这 些 句 子 是 一 个 三 元 组 标 
记 的 形式 : 


(subject, verb, object) (12.21) 





(entity;, relation;, entity, ). (12.22) 


我 们 还 可 以 定义 属性 (attribute )， 类 似 于 关系 的 概念 ， 但 只 需要 一 个 参数 : 


(entity,, attribute;). (12.23) 





例如 ， 我 们 可 以 定义 has_fur 属性 ， 并 将 其 应 用 于 像 狗 这 样 的 实体 。 

许多 应 用 中 需要 表示 关系 和 推理 。 我 们 如 何在 神经 网 络 中 做 到 这 一 点 ? 

机 絮 学 习 模 型 当然 需要 训练 数据 。 我 们 可 以 推断 非 结 构 化 自然 语言 组 成 的 训练 
数据 集中 实体 之 间 的 关系 ， 也 可 以 使 用 明确 定义 关系 的 结构 化 数据 库 。 这 些 数据 库 
的 共同 结构 是 关系 型 数据 库 ， 它 存储 这 种 相同 类 型 的 信息 ， 虽 然 没 有 格式 化 为 三 
元 标记 的 句子 。 当 数据 库 则 在 将 日 常生 活 中 常识 或 关于 应 用 领域 的 专业 知识 传达 
给 人 工 智 能 系统 时 , 我 们 将 这 种 数据 库 称 为 知识 库 。 知识 库 包 括 一 般 的 像 Freebase, 
OpenCyc, WordNet, Wikibase? 等 等 ， 和 专业 的 知识 库 ， 如 GeneOntology?。 实 体 
和 关系 的 表示 可 以 将 知识 库 中 的 每 个 三 元 组 作为 训练 样本 来 学 习 ， 并 且 以 最 大 化 捕 
获 它们 的 联合 分 布 为 训练 目标 (Bordes et al., 2013a). 

除了 训练 数据 ， 我 们 还 需 定义 训练 的 模型 族 。 一 种 常见 的 方法 是 将 神经 语言 模 
型 扩展 到 模型 实体 和 关系 。 神经 语言 模型 学 习 提 供 每 个 词 分 布 式 表 示 的 向 量 。 他们 还 
通过 学 习 这 些 向 量 的 函数 来 学 习 词 之 间 的 相互 作用 ， 例 如 哪些 词 可 能 出 现在 词 序列 
之 后 。 我 们 可 以 学 习 每 个 关系 的 般 和 人 向 量 将 这 种 方法 扩展 到 实体 和 关系 。 EXE, 建 
模 语 言 和 通过 关系 编码 建 模 知识 的 联系 非常 接近 ， 研 究 人 员 可 以 同时 使 用 知识 库 和 
自然 语言 句子 训练 这 样 的 实体 表示 (Bordes et al., 2011, 2012; Wang et al., 2014a), 
或 组 合 来 自 多 个 关系 型 数据 库 的 数据 (Bordes et al., 2013b)。 可 能 与 这 种 模型 相关 
联 的 特定 参数 化 有 许多 种 。 早 期 关于 学 习 实 体 间 关系 的 工作 (Paccanaro and Hinton, 


2 分别 可 以 在 如 下 网 址 获取 : freebase.com, cyc.com/opencyc, wordnet .princeton.edu, wikiba.se 
3 geneontology.org 
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2000) 假定 高 度 受 限 的 参数 形式 〈“' 线 性 关系 能 入 ”)， 通 常 对 关系 使 用 与 实体 形式 不 
同 的 表示 。 例 如 ，Paccanaro and Hinton (2000) 和 Bordes et al. (2011) 用 向 量 表示 
实体 而 矩阵 表示 关系 ， 其 思想 是 关系 在 实体 上 相当 于 运算 符 。 或 者 ， 关 系 可 以 被 认 
为 是 任何 其 他 实体 (Bordes et al., 2012) ， 人 允许 我 们 关于 关系 作 声明 ， 但 是 更 灵活 的 
是 将 它们 结合 在 一 起 并 建 模 联合 分 布 的 机 第 

这 种 模型 的 实际 短期 应 用 是 链接 预测 (link prediction ): 预测 知识 图 谱 中 缺失 
的 弧 。 这 是 基于 旧事 实 推广 新 事实 的 一 种 形式 。 目 前 存在 的 大 多 数 知识 pd 
人 力 劳 动 构建 的 ， 这 往往 使 知识 库 缺 失 许 多 并 且 可 能 是 大 多 数 真 正 的 关系 。 请 查 
看 Wang et al. (2014b), Lin et al. (2015) 和 Garcia-Duran et al. (2015) 中 这 样 应 用 
的 例子 。 


我 们 很 难 评估 链接 预测 任务 上 模型 的 性 能 ， 因 为 我 们 的 数据 集 只 有 正 样本 (已 
知 是 真实 的 事实 )。 如 果 模 型 提出 了 不 在 数据 集中 的 事实 ， 我 们 不 确定 模型 是 犯 了 错 
误 还 是 发 现 了 一 个 新 的 以 前 未 知 的 事实 。 度 量 基 于 测试 模型 如 何 将 已 知 真实 事实 的 
留存 集合 与 不 太 可 能 为 真 的 其 他 事实 相 比 较 ， 因 此 有 些 不 精确 。 构 造 感 兴趣 的 负 样 
本 ( 可 能 为 假 的 事实 ) 的 常见 方式 是 从 真实 事实 开始 , 并 创建 该 事实 的 损坏 版 本 ， 例 
如 用 随机 选择 的 不 同 实 体 蔡 换 关 系 中 的 一 个 实体 。 通 用 的 测试 精度 (10% 度量 ) 计 
算 模型 在 该 事实 的 所 有 损坏 版 本 的 前 10% 中 选择 “正确 ”事实 的 次 数 。 

知识 库 和 分 布 式 表示 的 男 一 个 应 用 是 词义 消 歧 (word-sense disambiguation ) 
(Navigli and Velardi, 2005; Bordes et al., 2012)， 这 个 任务 决定 在 某 些 语 境 中 哪个 词 
的 意义 是 恰当 。 

最 后 ， 知 识 的 关系 结合 一 个 推理 过 程 和 对 自然 语言 的 理解 可 以 让 我 们 建立 一 个 
一 般 的 问答 系统 。 一 般 的 问答 系统 必须 能 处 理 输入 信息 并 记 住 重 要 的 事实 ， 并 以 之 

后 能 检索 和 推理 的 方式 组 织 。 这 仍然 是 一 个 困难 的 开放 性 问题 ， 只 能 在 受 限 的 “ 玩 

有 具 ”环境 下 解决 。 目 前 ， 记 住 和 检索 特定 声明 性 事实 的 最 佳 方 法 是 使 用 显 式 记 忆 机 
制 ， 如 第 10.12 节 所 述 。 记 忆 网 络 最 开始 是 被 用 来 解决 一 个 玩具 问答 任务 (Weston 
et al., 2014)。Kumar et al. (2015b) 提出 了 一 种 扩展 , 使 用 GRU 循环 网 络 将 输入 读 
入 存储 器 并 且 在 给 定 存储 器 的 内 容 后 产生 回答 


深度 学 习 已 经 应 用 于 其 他 许多 应 用 ( 除了 这 里 描述 的 应 用 以 外 )， 并 且 肯 定 会 在 
此 之 后 应 用 于 更 多 的 场景 。 我 们 不 可 能 全 面 描述 与 此 主题 相关 的 所 有 应 用 。 本 项 调 
查 尽 可 能 地 提供 了 在 本 文 写作 之 时 的 代表 性 样本 

第 二 部 分 介绍 了 涉及 深度 学 习 的 现代 实践 ， 包 括 了 所 有 非常 成 功 的 方法 。 一般 





E 
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而 言 ， 这 些 方 法 使 用 代价 函数 的 梯度 寻找 模型 ( 近似 于 菏 些 所 期 望 的 函数 ) 的 参数 。 
当 具 有 足够 的 训练 数据 时 ， 这 种 方法 是 非常 强大 的 。 我 们 现在 转 到 第 三 部 分 ， 开 始 
进入 研究 领域 ， 旨 在 使 用 较 少 的 训练 数据 或 执行 更 多 样 的 任务 。 而 且 相 比 目 前 为 止 
所 描述 的 情况 ， 其 中 的 挑战 更 困难 并 且 远 远 没 有 解决 。 
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本 书 这 一 部 分 描述 目前 研究 社 群 所 追求 的 、 更 有 远见 和 更 先进 的 深度 学 习 方法 。 

在 本 书 的 前 两 部 分 ， 我 们 已 经 展示 了 如 何 解决 监督 学 习 问 题 ， 即 在 给 定 足 够 的 
上 映 射 样本 的 情况 下 ， 学 习 将 一 个 向 量 映 射 到 另 一 个 。 

我 们 想 要 解决 的 问题 并 不 全 都 属于 这 个 类 别 。 我 们 可 能 希望 生成 新 的 样本 、 或 
确定 一 个 点 的 似 然 性 、 或 处 理 缺 失 值 以 及 利用 一 组 大 量 的 未 标记 样本 或 相关 任务 的 
样本 。 当 前 应 用 于 工业 的 最 先进 技术 的 缺点 是 我 们 的 学 习 算 法 需要 大 量 的 监督 数据 
才能 实现 良好 的 精度 。 在 本 书 这 一 部 分 ， 我 们 讨论 一 些 推测 性 的 方法 ， 来 减少 现 有 
模型 工作 所 需 的 标注 数据 量 ， 并 适用 于 更 广泛 的 任务 。 实 现 这 些 目标 通常 需要 某 种 
形式 的 无 监督 或 羊 监督 学 习 。 

许多 深度 学 习 算 法 被 设计 为 处 理 无 监督 学 习 问 题 ， 但 不 像 深 度 学 习 已 经 在 很 大 
程度 上 解决 了 各 种 任务 的 监督 学 习 问 题 ， 没 有 一 个 算法 能 以 同样 的 方式 真正 解决 无 
监督 学 习 问题 。 在 本 书 这 一 部 分 ， 我 们 描述 无 监督 学 习 的 现 有 方法 和 一 些 如 何在 这 
一 领域 取得 进展 的 流行 思想 。 

无 监督 学 习 困 难 的 核心 原因 是 被 建 模 的 随机 变量 的 高 维度 。 这 带 来 了 两 个 不 同 
的 挑战 : 统计 挑战 和 计算 挑战 。 统 计 挑 战 与 泛 化 相关 : 我 们 可 能 想 要 区 分 的 配置 数 
会 随 着 感 兴趣 的 维度 数 指数 增长 ， 并 且 这 快速 变 得 比 可 能 具有 的 (或 者 在 有 限 计算 
资源 下 使 用 的 ) 样本 数 大 得 多 。 与 高 维 分 布 相关 联 的 计算 挑战 之 所 以 会 出 现 ， 是 因 
为 用 于 学 习 或 使 用 训练 模型 的 许多 算法 〈 特别 是 基于 佑 计 显 式 概率 函数 的 算法 ) 涉 
及 难处 理 的 计算 量 ， 并 且 随 维 数 呈 指数 增长 。 

使 用 概率 模型 ， 这 种 计算 挑战 来 自 执行 难 解 的 推断 或 归 一 化 分 布 。 














o 难 解 的 推断 : 推断 主要 在 第 十 九 章 讨论 。 推断 关于 捕获 a, 5 和 c 上 联合 分 布 的 
模型 ,给 定 其 他 变量 5 的 情况 下 ， 猜 测 一 些 变 量 a 的 可 能 值 。 为 了 计算 这 样 的 
条 件 概 率 ， 我们 需要 对 变量 c 的 值 求 和 ， 以 及 计算 对 a 和 e 的 值 求 和 的 归 一 化 
常数 。 





难 解 的 归 一 化 常数 【 配 分 函数 ) : 配 分 函数 主要 在 第 十 八 章 讨论 。 归 一 化 概 
率 函 数 的 常数 在 推断 EX) 以 及 学 习 中 出 现 。 许 多 概率 模型 涉及 这 样 的 归 
一 化 常数 。 不 境 的 是 ， 学 习 这 样 的 模型 通常 需要 相对 于 模型 参数 计算 配 分 耳 
数 对 数 的 梯度 。 该 计算 通常 与 计算 配 分 函数 本 身 一 样 难 解 。 马 尔 可 夫 链 蒙特 
卡 罗 (MCMC) (ETER) 通常 用 于 处 理 配 分 函数 。 不 雯 的 是 ， 当 模型 分 
布 的 模式 众多 且 分 离 良 好 时 ，MCMC 方 法 会 出 现 问 题 ， 特 别 是 在 高 维 空间 中 
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(第 17.5 节 )。 


面 对 这 些 难以 处 理 的 计算 的 一 种 方法 是 近似 它们 ， 如 在 本 书 的 第 三 部 分 中 讨论 
的 ,研究 者 已 经 提出 了 许多 方法 。 这 里 还 讨论 另 一 种 有 趣 的 方式 是 通过 设计 模型 ， 完 
全 避免 这 些 难以 处 理 的 计算 ， 因 此 不 需要 这 些 计算 的 方法 是 非常 有 吸引 力 的 。 近 年 
来 ， 人 研究 者 已 经 提出 了 数 种 具有 该 动机 的 生成 模型 。 其 中 第 二 十 章 讨论 了 各 种 各 样 
的 现代 生成 式 建 模 方法 。 

第 三 部 分 对 于 研究 者 来 说 是 最 重要 的 ， 人 研究 者 想 要 了 解 深度 学 习 领 域 的 广度 ， 
并 将 领域 推 向 真正 的 人 工 智 能 。 
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许多 深度 学 习 的 研究 前 沿 均 涉 及 构建 输入 的 概率 模型 pmoael(z)。 原 则 上 说 ， 给 
定 任 何其 他 变量 的 情况 下 ， 这 样 的 模型 可 以 使 用 概率 推断 来 预测 其 环境 中 的 任何 变 
量 。 许多 这 样 的 模型 还 具有 潜 变 量 h, 其 中 Pmodal (Z) = En Pmodel(T | h). 这 些 潜 变 
量 提供 了 表示 数据 的 男 一 种 方式 。 我 们 在 深度 前 馈 网 络 和 循环 网 络 中 已 经 发 现 ， 基 
于 潜 变 量 的 分 布 式 表 示 继 承 了 表示 学 习 的 所 有 优点 。 

在 本 章 中 ， 我 们 描述 了 一 些 基于 潜 变 量 的 最 简单 的 概率 模型 .线性 因子 模型 
(linear factor model )。 这 些 模型 有 时 被 用 来 作为 混合 模型 的 组 成 模块 (Hinton et al., 
1995a; Ghahramani and Hinton, 1996; Roweis et al., 2002) 或 者 更 大 的 深度 概率 模 
型 (Tang et al., 2012). 同时 ， 也 介绍 了 构建 生成 模型 所 需 的 许多 基本 方法 ， 在 此 基 
础 上 更 先进 的 深度 模型 也 将 得 到 进一步 扩展 。 

线性 因子 模型 通过 随机 线性 解码 器 函数 来 定义 ， 该 函数 通过 对 h 的 线性 变换 以 
及 添加 噪声 来 生成 z。 

有 趣 的 是 ， 通 过 这 些 模型 我 们 能 够 发 现 一 些 符 合 简单 联合 分 布 的 解释 性 因子 。 
线性 解码 器 的 简单 性 使 得 它们 成 为 了 最 早 被 广泛 研究 的 潜 变 量 模型 。 

线性 因子 模型 描述 如 下 的 数据 生成 过 程 。 首 先 ， 我 们 从 一 个 分 布 中 抽取 解释 性 
因子 h 





























h ~ p(h), (13.1) 


其 中 p(h) 是 一 个 因子 分 布 ， 满 足 ph) = Tip(hi)， 所 以 易于 从 中 采样 。 接 下 来 ， 在 
给 定 因子 的 情况 下 ， 我 们 对 实 值 的 可 观察 变量 进行 采样 





x= Wh + b + noise, (13.2) 
其 中 噪声 通常 是 对 角 化 的 〈 在 维度 上 是 独立 的 ) 且 服 从 高 斯 分 布 。 这 在 图 13.1 有 具 
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体 说 明 。 














图 13.1: 描述 线性 因子 模型 族 的 有 向 图 模型 ， 其 中 我 们 假设 观察 到 的 数据 向 量 z 是 通过 独立 的 洪 
在 因子 的 线性 组 合 再 加 上 一 定 噪声 获得 的 。 不同 的 模型 ， 比 如 概率 PCA, 因子 分 析 或 者 是 ICA, 
都 是 选择 了 不 同形 式 的 噪声 以 及 先 验 p(h) . 



































13.1 概率 PCA 和 因子 分 析 


概率 PCA (probabilistic PCA ) 、 因 子 分 析 和 其 他 线性 因子 模型 是 上 述 等 式 
( 式 (13.1) 和 式 (13.2) ) 的 特殊 情况 ， 并 且 仅 在 对 观测 到 z 之 前 的 噪声 分 布 和 淤 变量 
h 先 验 的 选择 上 有 所 不 同 。 

在 因子 分 析 (factor analysis) (Bartholomew, 1987; Basilevsky, 1994) 中 ， 洪 
变量 的 先 验 是 一 个 方差 为 单位 矩阵 的 高 斯 分 布 





h ~ N (h;0, D), (13.3) 


同时 ,假定 在 给 定 h 的 条 件 下 观察 值 x; 是 条 件 独 立 ( conditionally independent ) 
的 。 有 具体 来 说 ， 我 们 可 以 假设 噪声 是 从 对 角 协 方差 矩阵 的 高 斯 分 布 中 抽出 的 ， 协 方 
HEREN yp = diag(o?), HF o? = [cz, co2,...,a2] 7 表示 一 个 向 量 ， 每 个 元 素 表示 
一 个 变量 的 方差 。 

因此 ， 洪 变量 的 作用 是 捕获 不 同 观测 变量 x; 之 间 的 依赖 关系 。 实 际 上 ， 可 以 容 
易 地 看 出 x 服从 多 维 正 态 分 布 ， 并 满足 











x N(a;b, WW' +4). (13.4) 


为 了 将 PCA 引入 到 概率 框架 中 , 我 们 可 以 对 因子 分 析 模 型 作 轻 微 修改 ,使 条 件 
方差 o? 等 于 同一 个 值 。 在 这 种 情况 下 ，z 的 协 方差 简化 为 WW +I, 这 里 的 o? 
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是 一 个 标量 。 由 此 可 以 得 到 条 件 分 布 ， 如 下 : 
x~N(z;b, WW' +D, (13.5) 
或 者 等 价 地 


x= 1Hh 二 bD 二 az， (13.6) 





其 中 z ~N(z0,D 是 高 斯 噪声 。 之 后 Tipping and Bishop (1999) 提出 了 一 种 迭代 
的 EM 算法 来 估计 参数 W 和 o?。 

这 个 概率 PCA (probabilistic PCA ) 模型 利用 了 这 样 一 种 观察 现象 : 除了 一 
些微 小 残余 的 重 构 误差 ( reconstruction error) (至 多 为 o? ) ， 数 据 中 的 大 多 数 变 
化 可 以 由 潜 变量 h 描述 。 通 过 Tipping and Bishop (1999) 的 研究 我 们 可 以 发 现 ， 当 
o + ORY, 概率 PCA 退化 为 PCA。 在 这 种 情况 下 ， 给 定 z 情况 下 h 的 条 件 期 望 等 
于 将 z 一 5b 投影 到 WAY d 列 所 生成 的 空间 上 , 与 PCA 一 样 。 

当 c OF, 概率 PCA 所 定义 的 密度 函数 在 d 维 的 W 的 列 生成 空间 周围 非 
第 尖锐 。 这 导致 模型 会 为 没有 在 一 个 超 平面 附近 聚集 的 数据 分 配 非 常 低 的 概率 。 


13.2 ”独立 成 分 分 析 


独立 成 分 分 析 (independent component analysis, ICA ) 是 最 古老 的 表示 学 习 算 
法 之 一 (Herault and Ans, 1984; Jutten and Herault, 1991; Comon, 1994; Hyvärinen, 
1999; Hyvarinen et al., 2001; Hinton et al., 2001; Teh et al., 2003)。 它 是 一 种 建 模 线 
性 因子 的 方法 ， 旨 在 将 观察 到 的 信号 分 离 成 许多 洪 在 信号 ， 这 些 洪 在 信和 号 通过 缩放 
和 县 加 可 以 恢复 成 观察 数据 。 这 些 信号 是 完全 独立 的 ， 而 不 是 仅仅 彼此 不 相关 1。 

许多 不 同 的 具体 方法 被 称 为 ICA。 与 我 们 本 书 中 描述 的 其 他 生成 模型 最 相似 
的 ICA 变种 (Pham et al., 1992) 训练 了 完全 参数 化 的 生成 模型 。 洪 在 因子 h 的 先 验 
p(h)， 必 须 由 用 户 提 前 给 出 并 固定 。 接 着 模型 确定 性 地 生成 z= Wh. 我 们 可 以 通过 
非 线 性 变化 (使 用 式 (3.47) ) 来 确定 p(x)。 然 后 通过 一 般 的 方法 比如 最 大 化 似 然 进 
WH. 

这 种 方法 的 动机 是 ， 通 过 选择 一 个 独立 的 p(h)， 我 们 可 以 尽 可 能 恢复 接近 独立 
的 潜在 因子 。 这 是 一 种 常用 的 方法 , 它 并 不 是 用 来 捕捉 高 级 别 的 抽象 因果 因子 ,而 是 


:第 3.8 节 讨 论 了 不 相关 变量 和 独立 变量 之 间 的 差异 。 
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恢复 已 经 混合 在 一 起 的 低级 别 信号 。 在 该 设置 中 ， 每 个 训练 样本 对 应 一 个 时 刻 ， 每 
个 zi 是 一 个 传 感 咒 对 混合 信和 号 的 观察 值 ， 并 且 每 个 h; 是 单个 原始 信号 的 一 个 估计 。 
例如 ， 我 们 可 能 有 n 个 人 同时 说 话 。 如 果 我 们 在 不 同位 置 放置 n 个 不 同 的 麦克 风 ， 
WW ICA 可 以 检测 每 个 麦克 风 的 音量 变化 ， 并 且 分 离 信号 ， 使 得 每 个 hi 仅 包 含 一 个 
人 清楚 地 说 话 。 这 通常 用 于 脑 电 图 的 神经 科学 ， 这 种 技术 可 用 于 记录 源 自 大 脑 的 电 
信和 叶 。 放 置 在 受 试 者 头 部 上 的 许多 电极 传 感 需 用 于 测量 来 自身 体 的 多 种 电信 号 。 实 
验 者 通常 仅 对 来 自 大 脑 的 信号 感 兴趣 ， 但 是 来 自 受 试 者 心脏 和 眼睛 的 信号 强 到 足以 
混淆 在 受 试 者 头皮 处 的 测量 结果 。 信 号 到 达 电 极 ， 并 且 混 合 在 一 起 ， 因 此 为 了 分 离 
源 于 心脏 与 源 于 大 脑 的 信号 ， 并 量 将 不 同 脑 区 域 中 的 信号 彼此 分 离 ，ICA 是 必要 的 。 

如 前 所 述 ，ICA 存在 许多 变种 。 一 些 版 本 在 z 的 生成 中 添加 一 些 噪声 ， 而 不 是 
使 用 确定 性 的 解码 器 。 大 多 数 方法 不 使 用 最 大 似 然 准 则 ， 而 是 由 在 使 h = Wz 的 
元 素 彼 此 独立 。 许 多 准则 能 够 达成 这 个 目标 。 式 (3.47) 需要 用 到 W 的 行列 式 ， 这 可 
能 是 代价 很 高 且 数 值 不 稳定 的 操作 。ICA 的 一 些 变种 通过 将 W 约束 为 正 交 来 避免 
这 个 有 问题 的 操作 。 

ICA 的 所 有 变种 均 要 求 p(h) 是 非 高 斯 的 。 这 是 因为 如 果 ph) 是 具有 高 斯 分 量 
的 独立 先 验 ， 则 W 是 不 可 识别 的 。 对 于 许多 WE, 我 们 可 以 在 p(x) 上 获得 相同 
的 分 布 。 这 与 其 他 线性 因子 模型 有 很 大 的 区 别 , 例如 概率 PCA 和 因子 分 析 通 常 要 求 
p(h) 是 高 斯 的 ， 以 便 使 模型 上 的 许多 操作 具有 闭 式 解 。 在 用 户 明 确 指定 分 布 的 最 大 
似 然 方法 中 ， 一 个 典型 的 选择 是 使 用 p(hi) = 盐 (2)。 这 些 非 高 斯 分 布 的 典型 选择 
在 0 附近 具有 比 高 斯 分 布 更 高 的 峰值 ， 因 此 我 们 也 可 以 看 到 独立 成 分 分 析 经 常用 于 
学 习 稀 玲 特 征 。 

按照 我 们 对 生成 模型 这 个 术语 的 定义 ，ICA 的 许多 变种 不 是 生成 模型 。 在 本 书 
中 ， 生 成 模型 可 以 直接 表示 p(x)， 也 可 以 认为 是 从 p(x) 中 抽取 样本 。ICA 的 许多 
变种 仅 知 道 如 何在 z 和 h 之 间 变 换 ， 而 没有 任何 表示 p(h) 的 方式 ， 因 此 也 无 法 在 
ple) 上 施加 分 布 。 例 如 ， 许 多 ICA 谈 量 旨 在 增加 h= Woe 的 样本 峰 度 ， 因 为 高 
峰 度 说 明了 p(h) 是 非 高 斯 的 ， 但 这 是 在 没有 显 式 表示 p(h) 的 情况 下 完成 的 。 这 就 
是 为 什么 ICA 多 被 用 作 分 离 信 号 的 分 析 工 具 ， 而 不 是 用 于 生成 数据 或 估计 其 密度 。 

正如 PCA 可 以 推广 到 第 十 四 章 中 描述 的 非 线性 自 编 码 器 ，ICA 也 可 以 推广 到 
非 线性 生成 模型 ， 其 中 我 们 使 用 非 线 性 函数 f 来 生成 观测 数据 。 关 于 非 线 性 ICA 最 
初 的 工作 可 以 参考 Hyvärinen and Pajunen (1999), 它 和 集成 学 习 的 成 功 结合 可 以 参 
见 Roberts and Everson (2001); Lappalainen et al. (2000)。ICA 的 男 一 个 非 线 性 扩 
展 是 非 线性 独立 成 分 估计 (nonlinear independent components estimation, NICE ) 
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方法 (Dinh et al., 2014)， 这 个 方法 堆 生 了 一 系列 可 逆 变 换 (在 编码 器 阶段 )， 其 特 
性 是 能 高 效 地 计算 每 个 变换 的 Jacobian 行列 式 。 这 使 得 我 们 能 够 精确 地 计算 似 然 ， 
并 且 像 ICA 一 样 ，NICE 尝试 将 数据 变换 到 具有 因子 的 边缘 分 布 的 空间 。 由 于 非 线 
性 编码 器 的 使 用 ， 这 种 方法 更 可 能 成 功 。 因 为 编码 器 和 一 个 能 进行 完美 逆 变 换 的 解 
码 器 相关 联 ， 所 以 可 以 直接 从 模型 生成 样本 〈 首先 从 p(h) 采样 ， 然 后 使 用 解码 器 )。 

ICA 的 另 一 个 推广 是 通过 鼓励 组 内 统计 依赖 关系 、 抑 制 组 间 依 赖 关 系 来 学 习 特 
征 组 。 当 相关 单元 的 组 被 选 为 不 重症 时 ， 这 被 称 为 独立 子 空间 分 析 (independent 
subspace analysis )。 我 们 还 可 以 向 每 个 隐藏 单元 分 配 空间 坐标 ， 并 且 空 间 上 相 邻 的 
单元 组 形成 一 定 程度 的 重合 。 这 能 够 敦 励 相 邻 的 单元 学 习 类 似 的 特征 。 当 应 用 于 自 
然 图 像 时 ， 这 种 地 质 ICA (topographic ICA ) 方法 可 以 学 习 Gabor 滤波 器 ， 从 而 
使 得 相 邻 特征 具有 相似 的 方向 、 位 置 或 频率 。 在 每 个 区 域内 出 现 类 似 Gabor 函数 的 
许多 不 同 相 位 存在 抵消 作用 ， 使 得 在 小 区 域 上 的 池 化 产生 了 平移 不 变性 。 








13.3 [BRED 


慢 特 征 分 析 ( slow feature analysis, SFA ) 是 使 用 来 自 时 间 信 号 的 信息 学 习 不 变 
特征 的 线性 因子 模型 (Wiskott and Sejnowski, 2002)。 

慢 特 征 分 析 的 想法 源 于 所 谓 的 慢性 原则 (slowness principle )。 其 基本 思想 是 ， 
与 场景 中 起 描述 作用 的 单个 量度 相 比 ， 场 景 的 重要 特性 通常 变化 得 非常 缓慢 。 例 如 ， 
在 计算 机 视觉 中 ， 单 个 像素 值 可 以 非常 快速 地 改变 。 如 果 斑 马 从 左 到 右 移 动 穿 过 图 
像 并 且 它 的 条 纹 穿 过 对 应 的 像素 时 ， 该 像素 将 迅速 从 黑色 变 为 白色 ， 并 再 次 恢复 成 
黑色 。 通 过 比较 ， 指 示 斑 马 是 否 在 图 像 中 的 特征 将 不 发 生 改 变 ， 并 且 描 述 斑马 位 置 
的 特征 将 缓慢 地 改变 。 因 此 ,我 们 可 能 希望 将 模型 正则 化 ， 从 而 能 够 学 习 到 那些 随 
时 间 变 化 较为 缓慢 的 特征 。 

慢性 原则 早 于 慢 特征 分 析 , 并 已 被 应 用 于 各 种 模型 (Hinton, 1989; Földiák, 1989; 
Mobahi et al., 2009; Bergstra and Bengio, 2009)。 一 般 来 说 , 我 们 可 以 将 慢性 原则 应 
用 于 可 以 使 用 梯度 下 降 训练 的 任何 可 微分 模型 。 为 了 引入 慢性 原则 ， 我 们 可 以 向 代 
价 函数 添加 以 下 项 














AS LEa), (13.7) 


其 中 和 是 确定 慢 度 正 则 化 强度 的 超 参 数 项 , t ERFAR, f 是 需要 正则 
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化 的 特征 提取 器 , L 是 测量 f(a) 和 f (wD) 之 间 的 距离 的 损失 函数 。 工 的 一 个 
常见 选择 是 均 方 误差 。 

慢 特 征 分 析 是 慢性 原则 中 一 个 特别 高 效 的 应 用 。 由 于 它 被 应 用 于 线性 特征 提取 
器 ， 并 且 可 以 通过 闭 式 解 训练 ， 所 以 它 是 高 效 的 。 像 ICA 的 一 些 变 种 一 样 ，SFA 本 
身 并 不 是 生成 模型 ， 只 是 在 输入 空间 和 特征 空间 之 间 定 义 了 一 个 线性 映射 ， 但 是 没 
有 定义 特征 空间 的 先 验 ， 因 此 没有 在 输入 空间 上 施加 分 布 p(z)。 

SFA 算法 (Wiskott and Sejnowski, 2002) 先 将 f(z;0) 定义 为 线性 变换 ， 然后 求 
解 如 下 优化 问题 


























min Ey(f(#"); — f(@).)? (13.8) 
并 且 满 足下 面 的 约束 : 
B f(a); =0 (13.9) 
以 及 
E,[f(a®)?) = 1. (13.10) 

















学 习 特 征 具 有 有 零 均值 的 约束 对 于 使 问题 具有 唯一 解 是 必要 的 ; 否则 我 们 可 以 向 所 有 特 
征 值 添加 一 个 常数 ， 并 获得 具有 相等 慢 度 目标 值 的 不 同 解 。 特 征 具 有 单位 方差 的 约 
束 对 于 防止 所 有 特征 趋 近 于 -0 的 病态 解 是 必要 的 。 与 PCA 类 似 ，SFA 特征 是 有 序 
的 ， 其 中 学 习 第 一 特征 是 最 慢 的 。 要 学 习 多 个 特征 ， 我 们 还 必须 添加 约束 

















Vi <j, E,[ f(a), f(a),] = 0. (13.11) 


这 要 求学 习 的 特征 必须 彼此 线性 去 相关 。 没 有 这 个 约束 ， 所 有 学 习 到 的 特征 将 简单 
地 捕获 一 个 最 慢 的 信号 。 可 以 想象 使 用 其 他 机 制 ， 如 最 小 化 重 构 误 差 ， 也 可 以 迫使 
特征 多 样 化 。 但 是 由 于 SFA 特征 的 线性 ， 这 种 去 相关 机 制 只 能 得 到 一 种 简单 的 解 。 
SFA 问题 可 以 通过 线性 代数 软件 获得 闭 式 解 。 

在 运行 SFA Zi, SFA 通常 通过 对 z 使 用 非 线性 的 基 扩 充 来 学 习 非 线性 特征 。 
PON, HATA z 的 二 次 基 扩 充 来 代替 原来 的 z， 得 到 一 个 包含 所 有 ziz; 的 向 量 。 由 
此 ， 我 们 可 以 通过 反复 地 学 习 一 个 线性 SFA 特征 提取 器 ， 对 其 输出 应 用 非 线 性 基 扩 
展 ， 然 后 在 该 扩展 之 上 学 习 另 一 个 线性 SFA 特征 提取 器 的 方式 来 组 合 线性 SFA 模 
块 从 而 学 习 深度 非 线性 慢 特征 提取 器 。 
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当 在 自然 场景 视频 的 小 块 空间 部 分 上 训练 时 ， 使 用 二 次 基 扩 展 的 SFA 所 学 习 
到 的 特征 与 V1 皮层 中 那些 复杂 细胞 的 特征 有 许多 共同 特性 (Berkes and Wiskott， 
2005)。 当 在 计算 机 演 染 的 3D 环境 内 随机 运动 的 视频 上 训练 时 ， 深 度 SFA 模型 能 
人 够 学 习 的 特征 与 大 鼠 脑 中 用 于 导航 的 神经 元 学 到 的 特征 有 许多 共同 特性 (Franzius 
et al., 2007)。 因 此 从 生物 学 角度 上 来 说 SFA 是 一 个 合理 的 有 依据 的 模型 。 

SFA 的 一 个 主要 优点 是 ， 即 使 在 深度 非 线 性 条 件 下 ， 它 依然 能 够 在 理论 上 预 
测 SFA 能 够 学 习 哪 些 特征 。 为 了 做 出 这 样 的 理论 预测 ， 必 须知 道 关于 配置 空间 的 环 
境 动力 (例如 , 在 3D 泻 染 环境 中 随机 运动 的 例子 中 ,理论 分 析 是 从 相机 位 置 、 速 度 
的 概率 分 布 中 入 手 的 )。 已 知 潜在 因子 如 何 改变 的 情况 下 ， 我 们 能 够 通过 理论 分 析 解 
出 表达 这 些 因 子 的 最 佳 函数 。 在 实践 中 ， 基 于 模拟 数据 的 实验 上 ， 使 用 深度 SFA W 
乎 能 够 恢复 理论 预测 的 函数 。 相 比 之 下 ， 在 其 他 学 习 算法 中 ， 代 价 函 数 高 度 依赖 于 
特定 像素 值 ， 使 得 难以 确定 模型 将 学 习 到 什么 特征 。 

深度 SFA 也 已 经 被 用 于 学 习 用 在 对 象 识别 和 姿态 估计 的 特征 (Franzius et al., 
2008)。 到 目前 为 止 ， 慢 性 原则 尚未 成 为 任何 最 先进 应 用 的 基础 。 究 竟 是 什么 因素 限 
制 了 其 性 能 仍 有 待 研 究 。 我 们 推测 ， 或 许 慢 度 先 验 太 过 强势 ， 并且， 最 好 添加 这 样 
一 个 先 验 使 得 当前 时 间 步 到 下 一 个 时 间 步 的 预测 更 加 容易 ， 而 不 是 加 一 个 先 验 使 得 
特征 近似 为 一 个 常数 。 对 象 的 位 置 是 一 个 有 用 的 特征 ， 无 论 对 象 的 速度 是 高 还 是 低 。 
但 慢性 原则 鼓励 模型 忽略 具有 高 速度 的 对 象 的 位 置 。 











13.4 HA 


稀 琉 编码 (sparse coding ) (Olshausen and Field, 1996) 是 一 个 线性 因子 模型 ， 
EEA PTER REE I ARP EEL SE IZ SE. AER, R PTE 
编码 ”是 指 在 该 模型 中 推断 h (AEE, TT PER ALT TP A a Be a 
FE, (AE MB LAN “PS” FI 

像 大 多 数 其 他 线性 因子 模型 一 样 ， 它 使 用 了 线性 的 解码 器 加 上 噪声 的 方式 获得 
一 个 z 的 重 构 ， 就 像 式 (13.2) 描述 的 一 样 。 更 具体 地 说 ， 稀 玻 编码 模型 通常 假设 线 
性 因子 有 一 个 各 向 同性 精度 为 8 的 高 斯 噪声 : 








p(x | h) = N(x; Wh + b30) (13.12) 


分 布 p(h) 通常 选取 为 一 个 峰值 很 尖锐 且 接 近 0 的 分 布 (Olshausen and Field, 
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1996)。 和 常见 的 选择 包括 可 分 解 的 Laplace, Cauchy 或 者 可 分 解 的 Student-t 分 布 。 
WA, RNET RA 和 为 参数 的 Laplace 先 验 可 以 表示 为 


p(hi) = Laplace(hi; 0, 5) = fe BM, (13.13) 
相应 的 ，Student-t 先 验 分 布 可 以 表示 为 
p(hi) x (13.14) 


使 用 最 大 似 然 的 方法 来 训练 稀 玻 编码 模型 是 不 可 行 的 。 相反， 为 了 在 给 定编 码 
的 情况 下 更 好 地 重 构 数 据 ， 训 练 过 程 在 编码 数据 和 训练 解码 器 之 间 交 蔡 进 行 。 稍 后 
在 第 19.3 节 中 ， 这 种 方法 将 被 进一步 证 明 为 是 解决 最 大 似 然 问题 的 一 种 通用 的 近似 
方法 。 

对 于 诸如 PCA 的 模型 ,我们 已 经 看 到 使 用 了 预测 h 的 参数 化 的 编码 融 函 数 ， 
并 且 该 函数 仅 包 括 乘 以 权重 和 矩 阵 。 稀 玻 编 码 中 的 编码 铝 不 是 参数 化 的 编码 器 。 相 反 ， 
编码 需 是 一 个 优化 算法 ， 在 这 个 优化 问题 中 ， 我 们 寻找 单个 最 可 能 的 编码 值 : 

h* = f(x) = arg max p(h | 2). (13.15) 
h 











结合 式 (13.13) 和 式 (13.12) ， 我 们 得 到 如 下 的 优化 问题 : 


argmax p(h | x) (13.16) 
h 

= argmax logp(h | æ) (13.17) 
h 

= argmin Mhlli + Pllz — Whll3, (13.18) 
h 





其 中 ,我们 扔 掉 了 与 h 无 关 的 项 ， 并 除 以 一 个 正 的 缩放 因子 来 简化 表达 。 

由 于 在 天 上 施加 Li 范 数 ， 这 个 过 程 将 产生 稀 玖 的 刻 ( 详 见 第 7.1.2 节 )。 

为 了 训练 模型 而 不 仅仅 是 进行 推 凯 ， 我 们 交替 迭代 关于 h 和 W 的 最 小 化 过 程 。 
在 本 文中 ,我 们 将 6 视 为 超 参数 。 我 们 通常 将 其 设置 为 1， 因 为 它 在 此 优化 问题 的 
作用 与 和 类似， 没有 必要 使 用 两 个 超 参数 。 原 则 上 ， 我 们 还 可 以 将 6 作为 模型 的 参 
数 ， 并 学 习 它 。 我 们 在 这 里 已 经 放弃 了 一 些 不 依赖 于 h 但 依赖 于 6 的 项 。 要 学 习 B, 
必须 包含 这 些 项 ， 否 则 6 将 退化 为 0。 

不 是 所 有 的 稀 玻 编码 方法 都 显 式 地 构建 了 一 个 p(h) 和 一 个 p(z | h). WERN 
只 是 对 学 习 一 个 带 有 激活 值 的 特征 的 字典 感 兴趣 ， 当 特征 是 由 这 个 推断 过 程 提 取 时 ， 
这 个 激活 值 通常 为 0。 
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如 果 我 们 从 Laplace 先 验 中 采样 h, h 的 元 素 实 际 上 为 0 是 一 个 零 概率 事件 。 生 
成 模型 本 身 并 不 稀 玻 ， 只 有 特征 提取 需 是 稀 玻 的 。Goodfellow et al. (2013f) 描述 了 
不 同 模型 族 中 的 近似 推 上 新 ， 如 尖 峰 和 平板 稀 玻 编码 模型 ， 其 中 先 验 的 样本 通常 包含 
许多 真正 的 0。 

与 非 参 数 编码 絮 结 合 的 稀 艳 编码 方法 原则 上 可 以 比 任何 特定 的 参数 化 编码 右 更 
好 地 最 小 化 重 构 误差 和 对 数 先 验 的 组 合 。 男 一 个 优点 是 编码 器 没有 泛 化 误差 。 参 数 
化 的 编码 器 必须 泛 化 地 学 习 如 何 将 z 映射 到 h。 对 于 与 训练 数据 差异 很 大 的 异常 
2Z， 所 学 习 的 参数 化 编码 需 可 能 无 法 找到 对 应 精确 重 构 或 稀 臣 的 编码 ho PS 
但 模型 的 绝 大 多 数 形 式 ， 推 断 间 题 是 凸 的 ， 优 化 过 程 总 能 找到 最 优 编码 〈 除非 出 现 
退化 的 情况 ， 例 如 重复 的 权重 向 量 )。 显 然 ， 稀 琉 和 重 构成 本 仍然 可 以 在 不 熟悉 的 点 
上 升 ， 但 这 归 因 于 解码 器 权重 中 的 泛 化 误差 ， 而 不 是 编码 需 中 的 泛 化 误差 。 当 稀 朴 
编码 用 作 分 类 器 的 特征 提取 器 ， 而 不 是 使 用 参数 化 的 函数 来 预测 编码 值 时 ， 基 于 优 
化 的 稀 玻 编码 模型 的 编码 过 程 中 较 小 的 泛 化 误差 可 以 得 到 更 好 的 谤 化 能 力 。Coates 
and Ng (2011) 证 明了 在 对 象 识 别 任务 中 稀 跑 编码 特征 比 苦于 参数 化 的 编码 器 ( 线 
性 -sigmoid 自 编码 器 ) 的 特征 拥有 更 好 的 泛 化 能 力 。 受 他 们 的 工作 启发 ，Goodfellow 
et al. (2013f) 表明 一 种 稀 疏 编码 的 变 体 在 标签 极 少 ( 每 类 20 个 或 更 少 标签 ) 的 情况 
中 比 相同 情况 下 的 其 他 特征 提取 器 拥有 更 好 的 泛 化 能 力 。 

非 参数 编码 需 的 主要 缺点 是 在 给 定 z 的 情况 下 需要 大 量 的 时 间 来 计算 h， 因 为 
非 参数 方法 需要 运行 迭代 算法 。 在 第 十 四 章 中 讲 到 的 参数 化 自 编 码 吉 方法 仅 使 用 固 
定数 量 的 层 ， 通 党 只 有 一 层 。 另 一 个 缺点 是 它 不 直接 通过 非 参数 编码 器 进行 反 向 传 
播 ， 这 使 得 我 们 很 难 采用 先 使 用 无 监督 方式 预 训练 稀 玖 编码 模型 然后 使 用 监督 方式 
对 其 进行 精 调 的 方法 。 允 许 近 似 导数 的 稀 玖 编码 模型 的 修改 版 本 确实 存在 但 未 被 广 
泛 使 用 (Bagnell and Bradley, 2009). 

像 其 他 线性 因子 模型 一 样 ， 稀 朴 编 码 经 常 产生 糟糕 的 样本 ， 如 图 13.2 Pras. BN 
使 当 模 型 能 够 很 好 地 重 构 数 据 并 为 分 类 需 提 供 有 用 的 特征 时 ， 也 会 发 生 这 种 情况 。 
这 种 现象 发 生 的 原因 是 每 个 单独 的 特征 可 以 很 好 地 被 学 习 到 ， 但 是 隐藏 编码 值 的 
子 先 验 会 导致 模型 包括 每 个 生成 样本 中 所 有 特征 的 随机 子 集 。 这 促使 人 们 开发 更 深 
的 模型 ， 可 以 在 其 中 最 深 的 编码 层 施加 一 个 非 因 子 分 布 ， 与 此 同时 也 在 开发 一 些 复 
杂 的 浅 度 模型 。 
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图 13.2: 尖峰 和 平板 稀疏 编码 模型 上 在 MNIST 数据 集训 练 的 样 例 和 权重 。( 左 ) 这 个 模型 中 的 样 
本 和 训练 样本 相差 很 大 。 第 一 眼看 来 ,我们 可 能 认为 模型 拟 合 得 很 差 。( 右 ) 这 个 模型 的 权重 向 量 
已 经 学 习 到 了 如 何 表示 笔迹 ,有 时 候 还 能 写 完 整 的 数字 。 因 此 这 个 模型 也 学 习 到 了 有 用 的 特征 。 问 
题 在 于 特征 的 因子 先 验 会 导致 特征 子 集合 随机 的 组 合 。 一 些 这 样 的 子 集 能 够 合成 可 识别 的 MNIST 
集 上 的 数字 。 这 也 促进 了 拥有 更 强大 潜在 编码 分 布 的 生成 模型 的 发 展 。 此 图 经 Goodfellow et al. 
(2013f) 允许 转载 。 

















13.5 “PCA 的 流 形 解释 


线性 因子 模型 包括 PCA 和 因子 分 析 , 可 以 理解 为 学 习 一 个 流 形 (Hinton et al, 

1997)。 我 们 可 以 将 概率 PCA 定义 为 高 概率 的 薄饼 状 区 域 ， 即 一 个 高 斯 分 布 ， 沿 着 

某 些 轴 非 常 罕 ， 就 像 薄 饼 沿 着 其 垂直 轴 非 常平 坦 ， 但 沿 着 其 他 轴 是 细 长 的 ， 正 如 匡 

饼 在 其 水 平 轴 方向 是 很 宽 的 一 样 。 图 13.3 解释 了 这 种 现象 。PCA 可 以 理解 为 将 该 薄 

饼 与 更 高 维 空间 中 的 线性 流 形 对 准 。 这 种 解释 不 仅 适 用 于 传统 PCA， 而 且 适 用 于 学 

JEE W 和 妆 的 任何 线性 自 编码 器 ,其 目的 是 使 重 构 的 = 尽 可 能 接近 于 原始 的 x。 
编码 器 表示 为 





h= f(z) = W' (z-— p). (13.19) 
编码 器 计算 h 的 低 维 表示 。 从 自 编码 器 的 角度 来 看 ， 解 码 器 负责 计算 重 构 : 
& = g(h) = b+ Vh. (13.20) 
能 够 最 小 化 重 构 误差 
[lz — 2\|7] (13.21) 
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图 13.3: 平坦 的 高 斯 能 够 描述 一 个 低 维 流 形 附近 的 概率 密度 。 此 图 表示 了 “ 流 形 平面 ”上 “ 饮 饼 ? 

的 上 半 部 分 , 并且 这 个 平面 穿 过 了 馅 饼 的 中 心 。 正 交 于 流 形 方向 〈 指向 平面 外 的 箭头 方向 ) 的 方差 
非常 小 ， 可 以 被 视 作 是 “噪声 "， 其 他 方向 〈 平 面 内 的 箭头 ) 的 方差 则 很 大 ， 对 应 了 “信和 号 ”以 及 
降 维 数据 的 坐标 系统 。 
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的 线性 编码 器 和 解码 器 的 选择 对 应 着 V= W, p= b= Ela), W 的 列 形成 一 组 标准 
正 交 基 ， 这 组 基 生 成 的 子 空间 与 协 方差 矩阵 C 




















C=E@—p)(e- 1)] (13.22) 


的 主 特征 向 量 所 生成 的 子 空间 相同 。 在 PCA BH, W 的 列 是 按照 对 应 特征 值 (其 全 
部 是 实数 和 非 负 数 ) 幅度 大 小 排序 所 对 应 的 特征 向 量 。 

我 们 还 可 以 发 现 C 的 特征 值 A, 对 应 了 z 在 特征 向 量 vO 方向 上 的 方差 。 如 果 
ZE RR?, he R? 并 目 满足 d< DD, 则 (给 定 上 述 的 u, b, V, W 的 情况 下 ) 最 佳 的 重 
构 误 差 是 

















min El[||z — ll3] = Ai (13.23) 
i=d+1 
KE, WRIT AEEA d, MIE Ai 到 Ap 都 为 0， 并 且 重 构 误差 为 0。 
此 外 ,我 们 还 可 以 证 明 上 述 解 可 以 通过 在 给 定 正 交 和 矩阵 W 的 情况 下 最 大 化 h 
元 素 的 方差 而 不 是 最 小 化 重 构 误差 来 获得 。 
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某 种 程度 上 说 ， 线 性 因子 模型 是 最 简单 的 生成 模型 和 学 习 数 据 表 示 的 最 简单 模 
型 。 许 多 模型 如 线性 分 类 融和 线性 回归 模型 可 以 扩展 到 深度 前 馈 网 络 ， 而 这 些 线性 
因子 模型 可 以 扩展 到 自 编码 器 网 络 和 深度 概率 模型 ， 它们 可 以 执行 相同 任务 但 具有 
更 强大 和 更 灵活 的 模型 族 。 
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自 编 码 器 (autoencoder ) 是 神经 网 络 的 一 种 ， 经 过 训练 后 能 尝试 将 输入 复制 到 
输出 。 自 编码 器 (autoencoder ) 内 部 有 一 个 隐藏 层 h， 可 以 产生 编码 (code) 表示 
输入 。 该 网 络 可 以 看 作 由 两 部 分 组 成 : 一 个 由 函数 h = f(z) 表示 的 编码 器 和 一 个 生 
成 重 构 的 解码 器 r= g(h)。 图 14.1 展 示 了 这 种 架构 。 如 果 一 个 自 编码 器 只 是 简单 地 
学 会 将 处 处 设置 为 g(f(z)) = z， 那 么 这 个 自 编 码 需 就 没什么 特别 的 用 处 。 相 反 ， 我 
们 不 应 该 将 自 编码 絮 设 计 成 输入 到 输出 完全 相等 。 这 通常 需要 问 自 编码 器 强加 一 些 
约束 ， 使 它 只 能 近似 地 复制 ， 并 只 能 复制 与 训练 数据 相似 的 输入 。 这 些 约束 强制 模 
型 考虑 输入 数据 的 哪些 部 分 需要 被 优先 复制 ， 因 此 它 往 往 能 学 习 到 数据 的 有 用 特性 。 

现代 自 编码 器 将 编码 器 和 解码 器 的 概念 推 而 广 之 ， 将 其 中 的 确定 函数 推广 为 随 
DLR Dencoder(h | £) 和 paccoder(# | h)o 

数 十 年 间 ， 自 编码 器 的 想法 一 直 是 神经 网 络 历史 景象 的 一 部 分 (LeCun, 1987; 
Bourlard and Kamp, 1988; Hinton and Zemel, 1994)。 传 统 自 编码 器 被 用 于 降 维 或 
特征 学 习 。 近 年 来 ， 自 编码 器 与 潜 变 量 模型 理论 的 联系 将 自 编 码 器 带 到 了 生成 式 建 
模 的 前 沿 ， 我 们 将 在 第 二 十 章 揭示 更 多 细节 。 自 编码 需 可 以 被 看 作 是 前 馈 网 络 的 一 
个 特例 ， 并 且 可 以 使 用 完全 相同 的 技术 进行 训练 ， 通 常 使 用 小 批量 梯度 下 降 法 (其 
中 梯度 基于 反 向 传播 计算 )。 不 同 于 一 般 的 前 馈 网 络 ， 自 编码 器 也 可 以 使 用 再 循环 
(recirculation ) 训练 (Hinton and McClelland, 1988)， 这 种 学 习 算 法 基于 比较 原始 
输入 的 激活 和 重 构 输 入 的 激活 。 相 比 反 向 传播 算法 ,再 循环 算法 更 具 生 物 学 意义 , 但 
很 少 用 于 机 器 学 习 应 用 。 
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图 14.1: 自 编码 器 的 一 般 结 构 ， 通 过 内 部 表示 或 编码 h 将 输入 z 映射 到 输出 ( 称 为 重 构 ) r。 自 编 
码 器 具有 两 个 组 件 : 编码 器 f ORF z 映射 到 hh) 和 解码 器 g (将 h 映射 到 7)。 








141 欠 完 备 自 编码 器 


将 输入 复制 到 输出 听 起 来 没什么 用 , 但 我 们 通常 不 关心 解码 器 的 输出 。 相 反 , 我 
们 希望 通过 训练 自 编 码 屁 对 输入 进行 复制 而 使 h 获得 有 用 的 特性 。 

从 自 编码 器 获得 有 用 特征 的 一 种 方法 是 限制 h 的 维度 比 x 小， 这 种 编码 维度 
小 于 输入 维度 的 自 编码 器 称 为 欠 完 备 ( undercomplete ) 自 编 码 器 。 学 习 欠 完备 的 表 
示 将 强制 自 编码 器 捕 提 训练 数据 中 最 显著 的 特征 。 

学 习 过 程 可 以 简单 地 描述 为 最 小 化 一 个 损失 函数 

















L(x, 9(f(#))), (14.1) 








其 中 L EARRA, ET g( f(a) 与 z 的 差异 ， 如 均 方 误差。 

当 解 码 器 是 线性 的 且 L 是 均 方 误差 ， 欠 完备 的 自 编码 器 会 学 习 出 与 PCA 相同 
的 生成 子 空间 。 这 种 情况 下 ， 自 编码 器 在 训练 来 执行 复制 任务 的 同时 学 到 了 训练 数 
据 的 主 元 子 空间 。 

因此 ， 拥 有 非 线性 编码 器 函数 f 和 非 线性 解码 器 函数 g 的 自 编码 器 能 够 学 习 出 
更 强大 的 PCA 非 线性 推广 。 不 幸 的 是 ， 如 果 编 码 器 和 解码 器 被 赋予 过 大 的 容量 ， 
编码 器 会 执行 复制 任务 而 捕捉 不 到 任何 有 关 数 据 分 布 的 有 用 信息 。 从 理论 上 说 , 我 们 
可 以 设想 这 样 一 个 自 编码 器 ， 它 只 有 一 维 编码 ， 但 它 具有 一 个 非常 强大 的 非 线性 编 
码 器 ， 能 够 将 每 个 训练 数据 zt 表示 为 编码 i。 而 解码 器 可 以 学 习 将 这 些 整数 索引 
映射 回 特定 训练 样本 的 值 。 这 种 特定 情形 不 会 在 实际 情况 中 发 生 ， 但 它 清楚 地 说 明 ， 
如 果 自 编码 器 的 容量 太 大 ， 那 训练 来 执行 复制 任务 的 自 编码 器 可 能 无 法 学 习 到 数据 
集 的 任何 有 用 信息 。 
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14.2 ”正则 自 编码 器 


编码 维 数 小 于 输入 维 数 的 欠 完 备 自 编码 器 可 以 学 习 数 据 分 布 最 显著 的 特征 。 我 
们 已 经 知道 ， 如 果 赋 予 这 类 自 编码 器 过 大 的 容量 ， 它 就 不 能 学 到 任何 有 用 的 信息 。 

如 果 隐 藏 编码 的 维 数 允许 与 输入 相等 ,或 隐藏 编码 维 数 大 于 输入 的 过 完备 
(overcomplete ) 情况 下 ， 会 发 生 类 似 的 问题 。 在 这 些 情况 下 ， 即 使 是 线性 编码 器 和 
线性 解码 器 也 可 以 学 会 将 输入 复制 到 输出 ， 而 学 不 到 任何 有 关 数 据 分 布 的 有 用 信息 。 

理想 情况 下 ， 根 据 要 建 模 的 数据 分 布 的 复杂 性 ， 选 择 合适 的 编码 维 数 和 编码 器 、 
解码 器 容量 ， 就 可 以 成 功 训练 任意 架构 的 自 编码 器 。 正 则 自 编码 器 提供 这 样 的 能 力 。 
正则 自 编码 器 使 用 的 损失 函数 可 以 鼓励 模型 学 习 其 他 特性 〈 除 了 将 输入 复制 到 输 
出 )， 而 不 必 限 制 使 用 浅 层 的 编码 器 和 解码 器 以 及 小 的 编码 维 数 来 限制 模型 的 容量 。 
这 些 特性 包括 稀疏 表示 、 表 示 的 小 导数 、 以 及 对 噪声 或 输入 缺失 的 鲁 棒 性 。 即 使 模 
型 容量 大 到 是 以 学 习 一 个 无 意义 的 恒 等 函 数 ， 非 线性 且 过 完备 的 正则 自 编 码 器 仍然 
能 够 从 数据 中 学 到 一 些 关 于 数据 分 布 的 有 用 信息 。 

除了 这 里 所 描述 的 方法 (正则 化 自 编码 器 最 自然 的 解释 )， 几 乎 任何 带 有 潜 变 
量 并 配 有 一 个 推断 过 程 (计算 给 定 输入 的 潜在 表示 ) 的 生成 模型 ， 都 可 以 看 作 是 自 
编码 器 的 一 种 特殊 形式 。 强 调 与 自 编 码 器 联系 的 两 个 生成 式 建 模 方法 是 Helmholtz 
机 (Hinton et al., 1995b) 的 衍生 模型 ， 如 变 分 自 编码 器 (第 20.10.3 节 ) 和 生成 随机 
网 络 (第 20.12 节 )。 这 些 变 种 (或 衍生 ) 自 编码 器 能 够 学 习 出 高 容量 日 过 完备 的 模 
型 ， 进 而 发 现 输入 数据 中 有 用 的 结构 信息 ， 并 且 也 无 需 对 模型 进行 正则 化 。 这 些 编 
码 显然 是 有 用 的 ， 因 为 这 些 模型 被 训练 为 近似 训练 数据 的 概率 分 布 而 不 是 将 输入 复 
制 到 输出 。 


























14.2.1 稀疏 自 编码 器 





稀 琉 自 编 码 需 简单 地 在 训练 时 结合 编码 层 的 稀 玻 惩罚 Q(h) 和 重 构 误差 : 
D(a, g(f(#))) + QCA), (14.2) 
其 中 g(h) 是 解码 器 的 输出 ， 通 常 h 是 编码 器 的 输出 ， 即 h = f(a). 
稀 玻 自 编码 天 一 般 用 来 学 习 特 征 ,， 以便 用 于 像 分 类 这 样 的 任务 。 稀 琉 正 则 化 的 自 


编码 器 必须 反映 训练 数据 集 的 独特 统计 特征 ， 而 不 是 简单 地 充当 恒 等 函 数 。 以 这 种 
方式 训练 ， 执 行 附 带 稀 玻 惩 罚 的 复制 任务 可 以 得 到 能 学 习 有 用 特征 的 模型 。 
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我 们 可 以 简单 地 将 惩罚 项 Q(h) 视 为 加 到 前 馈 网 络 的 正则 项 ， 这 个 前 馈 网 络 的 
主要 任务 是 将 输入 复制 到 输出 〈 无 监督 学 习 的 目标 )， 并 尽 可 能 地 根据 这 些 稀 琉 特征 
执行 一 些 监 督学 习 任务 ( 根据 监督 学 习 的 目标 )。 不 像 其 它 正则 项 如 权重 衰减 没 
有 直观 的 贝 叶 斯 解释 。 如 第 5.6.1 节 描述 ， 权 重 衰减 和 其 他 正则 惩罚 可 以 被 解释 为 一 
个 MAP 近似 贝 叶 斯 推断 , 正则 化 的 惩罚 对 应 于 模型 参数 的 先 验 概率 分 布 。 这 种 观点 
认为 ， 正 则 化 的 最 大 似 然 对 应 最 大 化 pO | gj， 相当 于 最 大 化 log p(x | 09) +logp(6)。 
log p(a| 9) 即 通常 的 数据 似 然 项 ， 参 数 的 对 数 先 验 项 log p(6) 则 包含 了 对 9 特定 值 
的 偏好 。 这 种 观点 在 第 5.6 节 有 所 描述 。 正 则 自 编码 器 不 适用 这 样 的 解释 是 因为 正则 
项 取决 于 数据 ， 因 此 根据 定义 上 从 文字 的 正式 意义 ) 来 说 ， 它 不 是 一 个 先 验 。 虽 
然 如 此 ， 我 们 仍 可 以 认为 这 些 正则 项 隐 式 地 表达 了 对 函数 的 偏好 。 

我 们 可 以 认为 整个 稀 玖 自 编码 器 框架 是 对 带 有 潜 变 量 的 生成 模型 的 近似 最 大 似 
然 训练 ， 而 不 将 稀 艳 惩罚 视 为 复制 任务 的 正则 化 。 假 如 我 们 有 一 个 带 有 可 见 变量 z 
和 潜 变 量 h 的 模型 , 日 具有 明确 的 联合 分 布 pasoga (zx, h) = Pmodei(h)Pmoae(x | h)o 我 
们 将 Dmoae(h) 视 为 模型 关于 潜 变 量 的 先 验 分 布 , 表示 模型 看 到 z 的 信念 先 验 。 这 与 
我 们 之 前 使 用 “ 先 验 ”的 方式 不 同 ， 之 前 指 分 布 pO) 在 我 们 看 到 数据 前 就 对 模型 参 
数 的 先 验 进行 编码 。 对 数 似 然 函数 可 分 解 为 


















































log Pmodel (x) = log ` Damodel( 有， z). (14. 3) 
h 


我 们 可 以 认为 自 编码 器 使 用 一 个 高 似 然 值 h AIAS A AAA TFA 
编码 生成 模型 《第 13.4 节 ) 但 疡 是 参数 编码 器 的 输出 ， 而 不 是 从 优化 结果 推断 出 的 
最 可 能 的 hs 从 这 个 角度 看 ， 我 们 根据 这 个 选择 的 h， 最 大 化 如 下 


log Damnoadel( 用， z) = log Pmoaei(h) F log Pmodei(& | h). (14.4) 


log Pmoaei(h) 项 能 被 稀疏 诱导 。 如 Laplace 先 验 ， 


入 , 
Pmoael (Ri) = oT ; (14.5) 








对 应 于 绝对 值 稀疏 惩罚 。 将 对 数 先 验 表示 为 绝对 值 惩 罚 ， 我 们 得 到 
Q(h) = MD fhil, (14.6) 


— log pmodal(h) = SCA — log *) = Q(h) + const, (14.7) 


2 
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这 里 的 常数 项 只 跟 入 有关。 通常 我 们 将 和 视 为 超 参 数 ， 因 此 可 以 丢弃 不 影响 参数 学 
习 的 常数 项 。 其 他 如 Student-t 先 验 也 能 诱导 稀 跑 性 。 从 稀 政 性 导致 pwoaa(h) 学 习 
成 近似 最 大 似 然 的 结果 看 ,稀疏 惩罚 完全 不 是 一 个 正则 项 。 这 仪 仅 影 响 模型 关于 洪 
变量 的 分 布 。 这 个 观点 提供 了 训练 自 编码 器 的 另 一 个 动机 : 这 是 近似 训练 生成 模型 的 
一 种 途径 。 这 也 给 出 了 为 什么 自 编码 需 学 到 的 特征 是 有 用 的 另 一 个 解释 : 它们 描述 
的 潜 变 量 可 以 解释 输入 。 

稀 玻 自 编码 器 的 早期 工作 (Ranzato et al., 2007a, 2008) 探讨 了 各 种 形式 的 稀 
BE, 并 提出 了 稀 玲 惩罚 和 log Z 项 ( 将 最 大 似 然 应 用 到 无 向 概率 模型 p(x) = SP (a) 
时 产生 ) 之 间 的 联系 。 这 个 想法 是 最 小 化 log 2 防止 概率 模型 处 处 具有 高 概率 ， 同 理 
强制 稀 玖 可 以 防止 自 编 码 器 处 处 具有 低 的 重 构 误 差 。 这 种 情况 下 ， 这 种 联系 是 对 通 
用 机 制 的 直观 理解 而 不 是 数学 上 的 对 应 。 在 数学 上 更 容易 解释 稀 玻 惩罚 对 应 于 有 向 
模型 Diode (h)Pmode(x | h) 中 的 log pode (A) c 

Glorot et al. (2011b) #2th APE Mi (MAME) 自 编码 器 的 h 中 实现 真正 为 
零 的 方式 。 该 想法 是 使 用 整流 线性 单元 产生 编码 层 。 基 于 将 表示 真正 推 向 零 ( 如 绝 
对 值 惩罚 ) 的 先 验 ， 可 以 间接 控制 表示 中 零 的 平均 数量 。 




















14.2.2 ”去 噪 自 编码 器 
除了 回 代 价 函 数 增 加 一 个 惩罚 项 ， 我 们 也 可 以 通过 改变 重 构 误 差 项 来 获得 一 个 
能 学 到 有 用 信息 的 自 编码 器 。 
传统 的 自 编码 需 最 小 化 以 下 目标 
L(x, g(f (7))), (14.8) 
其 中 工 是 一 个 损失 函数 , 惩罚 g(f(z)) 与 xz 的 差异 , 如 它们 彼此 差异 的 了 范 数 。 如 
果 模 型 被 赋予 过 大 的 容量 , LD 仅仅 使 得 go f 学 成 一 个 恒 等 函 数 。 
相反 ， 去 噪 自 编码 器 ( denoising autoencoder, DAE) 最 小 化 
L(x, g(f (&))), (14.9) 
其 中 z 是 被 某 种 噪声 损坏 的 z 的 副本 。 因 此 去 噪 自 编码 器 必须 撤消 这 些 损 坏 ， 而 不 
是 简单 地 复制 输入 。 


Alain and Bengio (2013) 和 Bengio et al. (2013d) 指出 去 噪 训练 过 程 强制 f 和 
g 隐 式 地 学 习 paata(z) 的 结构 。 因 此 去 噪 自 编码 器 也 是 一 个 通过 最 小 化 重 构 误 差 获 
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取 有 用 特性 的 例子 。 这 也 是 将 过 完备 、 高 容量 的 模型 用 作 自 编码 器 的 一 个 例子 一 一 
只 要 小 心 防 止 这 些 模型 仅仅 学 习 一 个 恒 等 困 数 。 去 品 自 编码 需 将 在 第 14.5 节 给 出 更 
多 细 广 。 





14.2.3 ”惩罚 导数 作为 正则 





另 一 正则 化 自 编 码 咒 的 策略 是 使 用 一 个 类 似 稀 朴 自 编码 器 中 的 惩罚 项 9， 
L(x, g(f(#))) + Q(h, æ), (14.10) 
但 9 的 形式 不 同 : 


O(h, æ) = A X ||Vehill?. (14.11) 


这 迫使 模型 学 习 一 个 在 z 变化 小 时 目标 也 没有 太 大 变化 的 函数 。 因 为 这 个 惩罚 
只 对 训练 数据 适用 ， 它 迫使 自 编码 器 学 习 可 以 反映 训练 数据 分 布 信息 的 特征 。 

这 样 正则 化 的 自 编 码 右 被 称 为 收缩 自 编码 器 ( contractive autoencoder, CAE )。 
这 种 方法 与 去 噪 自 编码 器 、 流 形 学 习 和 概率 模型 存在 一 定理 论 联 系 。 收缩 自 编码 器 将 
在 第 14.7 节 更 详细 地 描述 。 


14.3 ”表示 能 力 、 层 的 大 小 和 深度 


自 编 码 带 通常 只 有 单 层 的 编码 器 和 解码 顺 ， 但 这 不 是 必然 的 。 实 际 上 深度 编码 
顺和 解码 需 能 提供 更 多 优势 。 

回忆 第 6.4.1 节 ， 其 中 提 到 加 深 前 馈 网 络 有 很 多 优势 。 这 些 优 势 也 同样 适用 于 自 
编码 融 ， 因 为 它 也 属于 前 馈 网 络 。 此 外 ,编码 涡 和 解码 右 各 自 都 是 一 个 前 僻 网 络 ， 因 
此 这 两 个 部 分 也 能 各 自从 深度 结构 中 获得 好 处 。 

万 能 近似 定理 保证 至 少 有 一 层 隐 藏 层 且 隐藏 单元 足够 多 的 前 馈 神 经 网 络 能 以 任 
意 精 度 近似 任意 函数 〈 在 很 大 范围 里 )， 这 是 非 平凡 深度 ( 至少 有 一 层 隐藏 层 ) 的 一 
个 主要 优点 。 这 意味 着 具有 单 隐藏 层 的 自 编码 右 在 数据 域内 能 表示 任意 近似 数据 的 
恒 等 函 数 。 但 是 ， 从 输入 到 编码 的 映射 是 浅 层 的 。 这 意味 这 我 们 不 能 任意 添加 约束 ， 
比如 约束 编码 稀 玖 。 深 度 自 编码 带 ( 编码 器 至 少 包含 一 层 额 外 隐藏 层 ) 在 给 定 足 够 
多 的 隐藏 单元 的 情况 下 ， 能 以 任意 精度 近似 任何 从 输入 到 编码 的 映射 。 
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深度 可 以 指数 地 降低 表示 某 些 函数 的 计算 成 本 。 深 度 也 能 指数 地 减少 学 习 一 些 
函数 所 需 的 训练 数据 量 。 读 者 可 以 参考 第 6.4.1 节 巩 固 深度 在 前 僻 网 络 中 的 优势 。 

实验 中 ， 深 度 自 编码 器 能 比 相应 的 浅 层 或 线性 自 编码 器 产生 更 好 的 压缩 效率 
(Hinton and Salakhutdinov, 2006). 
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14.4 ”随机 编码 器 和 解码 器 


自 编 码 器 本 质 上 是 一 个 前 馈 网 络 ， 可 以 使 用 与 传统 前 馈 网 络 相 同 的 损失 函数 和 
输出 单元 。 

如 第 6.2.2.4 节 中 描述 ， 设 计 前 馈 网 络 的 输出 单元 和 损失 函数 普遍 策略 是 定义 一 
个 输出 分 布 p(y | 四 并 最 小 化 负 对 数 似 然 一 log p(y| z)。 在 这 种 情况 下 ，y 是 关于 目 
标的 向 量 ( 如 类 标 )。 

在 自 编码 器 中 ，z 既是 输入 也 是 目标 。 然 而 ,我 们 仍然 可 以 使 用 与 之 前 相同 的 架 
构 。 给 定 一 个 隐藏 编码 h， 我 们 可 以 认为 解码 带 提 供 了 一 个 条 件 分 布 paoaa(z | h)o 
接着 我 们 根据 最 小 化 一 log paccoder(@ | h) 来 训练 自 编码 器 。 损 失 函 数 的 具体 形式 视 
Paecoder 的 形式 而 定 。 就 传统 的 前 馈 网 络 来 说 ， 如 果 xz 是 实 值 的 ， 那 么 我 们 通常 使 用 
线性 输出 单元 参数 化 高 斯 分 布 的 均值 。 在 这 种 情况 下 ， 负 对 数 似 然 对 应 均 方 误差 准 
则 。 类似 地 ， 二 值 x 对 应 于 一 个 Bernoulli 分 布 ， 其 参数 由 sigmoid 输出 单元 确定 
的 。 而 离散 的 x 对 应 softmax 分 布 ， 以 此 类 推 。 在 给 定 h 的 情况 下 ， 为 了 便于 计算 
概率 分 布 ， 输 出 变量 通常 被 视 为 是 条 件 独 立 的 ， 但 一 些 技术 〈 如 混合 密度 输出 ) 可 
以 解决 输出 相关 的 建 模 。 

为 了 更 彻底 地 与 我 们 之 前 了 解 到 的 前 馈 网 络 相 区 别 ， 我 们 也 可 以 将 编码 函数 
(encoding function) f(a) 的 概念 推广 为 编码 分 布 (encoding distribution) Pencoder(h | 
Zz)， 如 图 14.2 中 所 示 。 


任何 潜 变 量 异型 pmodal(h, z) 定义 一 个 随机 编码 器 








Dencoder (h | 1T) = pmodael(h | x) (14.12) 
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Pencoder(h | x) Paecoder(& | h) 


QO 


图 14.2: 随机 自 编码 器 的 结构 ， 其 中 编码 右 和 解码 器 包括 一 些 噪声 注入 ， 而 不 是 简单 的 函数 。 这 
意味 着 可 以 将 它们 的 输出 视 为 来 A 分 布 的 采样 (对 于 编码 器 是 Pencoder(h | D) 对 于 解码 器 是 
Daecoder(Z | h) Jo 











以 及 一 个 随机 解码 需 
Pdecoder (£ | h) = Pmode& | h). (14.13) 


通常 情况 下 ， 编 码 器 和 解码 器 的 分 布 没有 必要 是 与 唯一 一 个 联合 分 布 Danae (ae, h) 相 
容 的 条 件 分 布 。Alain et al. (2015) 指出 ， 在 保证 足够 的 容量 和 样本 的 情况 下 ， 将 编 
码 器 和 解码 器 作为 去 噪 自 编码 器 训练 ， 能 使 它们 渐 近 地 相 容 。 


145 “去 噪 自 编码 器 


去 噪 自 编码 器 (denoising autoencoder, DAE ) 是 一 类 接受 损坏 数据 作为 输入 ， 
并 训练 来 预测 原始 未 被 损坏 数据 作为 输出 的 自 编码 吉 。 

DAE 的 训练 过 程 如 图 14.3 中 所 示 。 我 们 引入 一 个 损坏 过 程 C(X | x)， 这 个 条 件 
分 布 代表 给 定数 据 样 本 x 产生 损坏 样本 & 的 概率 。 自 编码 咒 则 根据 以 下 过 程 ， 从 训 
练 数据 对 (z, 如 中 学 习 重 构 分 布 (reconstruction distribution) preconstruct (X | X): 





1. 从 训练 数据 中 采 一 个 训练 样本 z。 
2. 从 C(x | x = 2) 采 一 个 损坏 样本 5 


3. 将 (x, T) 作为 训 练 样本 来 估计 上 自 Shay TS ARs ES BL 构 分 布 Dreconstruct (T | ©) = 
Däecoder( Ë | h), 其 中 h FES Ai f(z) 的 输出 > Pdecoder 根据 解码 函数 g(h) 定 

义 。 
通常 我 们 可 以 简单 地 对 负 对 数 似 然 一 log paccoder(@ | h) 进行 基于 梯度 法 ( 如 小 批 
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量 梯 度 下 降 ) 的 近似 最 小 化 。 只 要 编码 器 是 确定 性 的 ， 去 噪 自 编码 顺 就 是 一 个 前 馈 
网 络 ， 并 且 可 以 使 用 与 其 他 前 馈 网 络 完全 相同 的 方式 进行 训练 。 




















图 14.3: 去 噪 自 编码 器 代价 函数 的 计算 图 。 去 品 自 编码 器 被 训练 为 从 损坏 的 版 本 ae 重 构 干净 数据 
点 Lo 这 可 以 通过 最 小 化 损失 L= — log pqecoder (z | h= f(z)) 实现 ， 其 中 x 是 样本 T 经 过 损坏 过 
程 C(z| x) 后 得 到 的 损坏 版 本 。 通常 ’ 分 布 Pdecoder 是 因子 的 分 布 (平均 参数 由 前 馈 网 络 g 给 出 Jo 





























因此 我 们 可 以 认为 DAE 是 在 以 下 期 望 下 进行 随机 梯度 下 降 ; 




















= 0 Ex C(%|2) log paecoder (£ | h = f(z)), (14.14) 


其 中 paata(z) 是 训练 数据 的 分 布 。 











14.5.1 ”得 分 估计 
得 分 匹配 (Hyvärinen, 2005a) 是 最 大 似 然 的 代替 。 它 提供 了 概率 分 布 的 一 致 佑 


计 , 促使 模型 在 各 个 数据 点 z 上 获得 与 数据 分 布 相同 的 得 分 ( score )。 在 这 种 情况 
下 ， 得 分 是 一 个 特定 的 梯度 场 : 


Vlog p(x). (14.15) 
我 们 将 在 第 18.4 节 中 更 详细 地 讨论 得 分 匹配 。 对 于 现在 讨论 的 自 编 码 锅 ， 理 解 
学 习 log Pasta 的 梯度 场 是 学 习 pana 结构 的 一 种 方式 就 足够 了 。 


DAE 的 训练 准则 (条件 高 斯 p(z | h)) 能 让 自 编码 器 学 到 能 估计 数据 分 布 得 分 
的 向 量 场 (9(j(z)) — x), XE DAE 的 一 个 重要 特性 。 具 体 如 图 14.4 所 示 。 


对 一 类 采用 高 斯 噪声 和 均 方 误差 作为 重 构 误差 的 特定 去 品 自 编码 器 (具有 sig- 
moid 隐藏 单元 和 线性 重 构 单 元 ) 的 去 噪 训练 过 程 ,与 训练 一 类 特定 的 被 称 为 RBM 的 


ww ai bbt.com DO000000 


douc ba BODEG 


14.5 A'R É RDR 437 








图 14.4: 去 品 自 编码 右 被 训练 为 将 损坏 的 数据 点 ae 映射 回 原始 数据 点 z。 我 们 将 训练 样本 z 表示 
为 位 于 低 维 流 形 ( 粗 黑 线 ) 附近 的 红 又 。 我 们 用 灰色 圆圈 表示 等 概率 的 损坏 过 程 C(z | at). WE 
头 演示 了 如 何 将 一 个 训练 样本 转换 为 经 过 此 损坏 过 程 的 样本 。 当 训练 去 噪 自 编码 器 最 小 化 平方 误 
22 \Ig(f(@)) — all? 的 平均 值 时 ， 重 构 g(f(&)) 估计 Bx e~paata cel) ix | Ho g(f(&) 对 可 能 产生 
T 的 原始 点 z 的 质心 进行 估计 ， 所 以 向 量 o( f(@)) 一 多 近似 指向 流 形 上 最 近 的 点 。 因 此 自 编 码 器 可 
以 学 习 由 绿色 箭头 表示 的 向 量 场 g(f(z)) 一 x。 该 向 量 场 将 得 分 Vslog paata(z) 估计 为 一 个 乘 性 因 
子 ， 即 重 构 误差 均 方 根 的 平均 。 






























































无 向 概率 模型 是 等 价 的 (Vincent, 2011)。 这 类 模型 将 在 第 20.5.1 节 给 出 更 详细 的 介 
绍 ; 对 于 现在 的 讨论 , 我 们 只 需 知道 这 个 模型 能 显 式 的 给 出 pmoaet(z; 9)。 当 RBM 使 
用 去 噪 得 分 匹配 (denoising score matching ) 算法 (Kingma and LeCun, 2010a) 训 
练 时 ， 它 的 学 习 算 法 与 训练 对 应 的 去 噪 自 编码 器 是 等 价 的 。 在 一 个 确定 的 噪声 水 平 
下 ， 正 则 化 的 得 分 匹配 不 是 一 致 佑 计量 ; 相反 它 会 恢复 分 布 的 一 个 模糊 版 本 。 然 而 ， 
当 噪 声 水 平 趋向 于 0 且 训 练 样 本 数 趋向 与 无 穷 时 ， 一 致 性 就 会 恢复 。 我 们 将 会 在 
第 18.5 节 更 详细 地 讨论 去 噪 得 分 匹配 。 

自 编码 器 和 RBM 还 存在 其 他 联系 。 在 RBM 上 应 用 得 分 匹配 后 , 其 代价 函数 将 
等 价 于 重 构 误 差 结 合 类 似 CAE 惩罚 的 正则 项 (Swersky et al., 2011)。Bengio and 
Delalleau (2009) 指出 自 编码 器 的 梯度 是 对 RBM 对 比 散 度 训练 的 近似 。 

对 于 连续 的 z， 高 斯 损坏 和 重 构 分 布 的 去 噪 准则 得 到 的 得 分 估计 适用 于 一 般 编 
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码 器 和 解码 器 的 参数 化 (Alain and Bengio, 2013)。 这 意味 着 一 个 使 用 平方 误差 准则 





lg(f (2)) — all? (14.16) 
和 噪声 方差 为 o? 的 损坏 
C(é@=@| £) = N(@ u = z, £ = 07!) (14.17) 
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图 14.5: 由 去 品 自 编码 器 围绕 1 维 弯曲 流 形 学 习 的 向 量 场 ， 其 中 数据 集中 在 2 维 空间 中 。 每 个 箭 
头 与 重 构 向 量 减 去 自 编 码 需 的 输入 向 量 后 的 向 量 成 比例 ， 并 且 根 据 隐 式 估计 的 概率 分 布 指向 较 高 
的 概率 。 向 量 场 在 估计 的 密度 函数 的 最 大 值 处 (在 数据 流 形 上 ) 和 密度 函数 的 最 小 值 处 都 为 零 。 例 
如 ,螺旋 臂 形 成 局 部 最 大 值 彼此 连接 的 1 维 流 形 。 局 部 最 小 值 出 现在 两 个 臂 间 际 的 中 间 附 近 。 当 重 
构 误 差 的 范 数 (由 箭头 的 长 度 示 出 ) 很 大 时 ， 在 箭头 的 方向 上 移动 可 以 显著 增加 概率 ， 并 且 在 低 
概率 的 地 方 大 多 也 是 如 此 。 自 编码 器 将 这 些 低 概率 点 映射 到 较 高 的 概率 重 构 。 在 概率 最 大 的 情况 
下 ， 重 构 变 得 更 准确 ， 因 此 箭头 会 收缩 。 经 Alain and Bengio (2013) 许可 转载 此 图 。 













































































一 般 情况 下 ， 不 能 保证 重 构 函 数 g(f(z)) 减 去 输入 z 后 对 应 于 某 个 函数 的 梯 
度 ， 更 不 用 说 得 分 。 这 是 早期 工作 (Vincent, 2011) 专用 于 特定 参数 化 的 原因 (其 中 
g(f(z)) 一 能 通过 男 一 个 函数 的 导数 获得 )。Kamyshanska and Memisevic (2015) 
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通过 标识 一 类 特殊 的 浅 层 自 编 码 需 家 族 ， 使 g(f(z)) 一 zx 对 应 于 这 个 家 族 所 有 成 员 的 
一 个 得 分 ， 以 此 推广 Vincent (2011) 的 结 

目前 为 止 我 们 所 讨论 的 仅 限于 去 噪 自 编码 器 如 何 学 习 表 示 一 个 概率 分 布 。 更 一 
般 的 ， 我 们 可 能 希望 使 用 自 编码 屁 作 为 生成 模型 ， 并 从 其 分 布 中 进行 采样 。 这 将 在 
第 20.11 节 中 讨论 。 





14.5.2 ”历史 展望 


采用 MLP 去 噪 的 想法 可 以 追溯 到 LeCun (1987) 和 Gallinari et al. (1987) 的 
工作 。Behnke (2001) 也 曾 使 用 循环 网 络 对 图 像 去 品 。 在 某 种 意义 上 ， 去 噪 自 编 码 
器 仅仅 是 被 训练 去 噪 的 MLP。 然 而 ,“ 去 噪 自 编码 器 ”的 命名 指 的 不 仅仅 是 学 习 去 
品 ， 而 且 可 以 学 到 一 个 好 的 内 部 表示 〈 作 为 学 习 去 品 的 副 效用 )。 这 个 想法 提出 较 
晚 (Vincent et al., 2008b, 2010)。 学习 到 的 表示 可 以 被 用 来 预 训练 更 深 的 无 监督 网 络 
或 监督 网 络 。 与 稀 琉 自 编码 器 、 稀 琉 编 码 、 收 缩 自 编码 器 等 正则 化 的 自 编码 器 类 似 ， 
DAE 的 动机 是 允许 学 习 容 量 很 高 的 编码 器 ， 同 时 防止 在 编码 器 和 解码 器 学 习 一 个 无 
用 的 恒 等 函 数 。 

在 引入 现代 DAE 之 前 ，Inayoshi and Kurita (2005) 探索 了 其 中 一 些 相 同 的 方 
法 和 目标 。 他 们 除了 在 监督 目标 的 情况 下 最 小 化 重 构 误 差 之 外 ,还 在 监督 MLP 的 隐 
藏 层 注入 噪声 ， 通 过 引信 重 构 误 差 和 注 人 噪声 提升 泛 化 能 力 。 然 而 ， 他 们 的 方法 基 
于 线性 编码 器 ， 因 此 无 法 学 习 到 现代 DAE 能 学 习 的 强大 函数 族 。 
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如 第 5.11.3 节 描 述 ， 自 编码 需 跟 其 他 很 多 机 需 学 习 算 法 一 样 , 也 利用 了 数据 集中 
在 一 个 低 维 流 形 或 者 一 小 组 这 样 的 流 形 的 思想 。 其 中 一 些 机 需 学习 算法 仅 能 学 习 到 
在 流 形 上 表现 良好 但 给 定 不 在 流 形 上 的 输入 会 导致 异常 的 图 数 。 自 编码 需 进 一 步 借 
此 想法 ， 旨 在 学 习 流 形 的 结构 。 

要 了 解 自 编码 器 如 何 做 到 这 一 点 ， 我 们 必须 介绍 流 形 的 一 些 重 要 特性 。 

流 形 的 一 个 重要 特征 是 切 平 面 (tangent plane) 的 集合 。d 维 流 形 上 的 一 点 z, 
切 平面 由 能 张 成 流 形 上 人 允许 变动 的 局 部 方向 的 a 维基 向 量 给 出 。 如 图 14.6 所 示 ， 这 
些 局 部 方向 决定 了 我 们 能 如 何 微小 地 变动 z 而 保持 于 流 形 上 。 
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图 14.6: 正切 超 平 面 概念 的 图 示 。 我 们 在 784 维 空间 中 创建 了 1 维 流 形 。 我 们 使 用 一 张 784 像素 
的 MNIST 图 像 ,并 通过 垂直 平移 来 转换 它 。 垂 直 平 移 的 量 定义 沿 着 1 维 流 形 的 坐标 , 轨迹 为 通过 
图 像 空 间 的 弯曲 路 径 。 该 图 显示 了 沿 着 该 流 形 的 几 个 点 。 为 了 可 视 化 ,我 们 使 用 PCA 将 流 形 投影 
到 2 维 空间 中 。n 维 流 形 在 每 个 点 处 都 具有 n 维 切 平 面 。 该 切 平 面 恰好 在 该 点 接触 流 形 Sade 
该 点 处 平行 于 流 形 表 面 。 它 定义 了 为 保持 在 流 形 上 可 以 移动 的 方向 空间 。 该 1 维 流 形 具 有 单个 切 
线 。 我 们 在 图 中 示 出 了 一 个 点 处 的 示例 切线 ， 其 中 图 像 表 示 该 切线 方向 在 图 像 空间 中 是 怎样 的 。 灰 
色 像 素 表示 沿 着 切线 移动 时 不 改变 的 像素 ， 白 色 像素 表示 变 亮 的 像素 ， 黑 色 像素 表示 变 暗 的 像素 。 


























































































































所 有 自 编码 噩 的 训练 过 程 涉及 两 种 推动 力 的 折衷 : 





1. 学 习 训练 样本 z 的 表示 h 使 得 z 能 通过 解码 右 近 似 地 从 h 中 恢复 。z 是 从 训 
练 数据 挑 出 的 这 一 事实 很 关键 ， 因 为 这 意味 着 在 自 编码 器 不 需要 成 功 重 构 不 属 
于 数据 生成 分 布下 的 输入 。 


2. 满足 约束 或 正则 惩罚 。 这 可 以 是 限制 自 编码 顺 容 量 的 架构 约束 ， 也 可 以 是 加 入 
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到 重 构 代价 的 一 个 正则 项 。 这 些 技 术 一 般 倾向 那些 对 输入 较 不 敏感 的 解 。 


显然 ， 单 一 的 推动 力 是 无 用 的 一 一 从 它 本 身 将 输入 复制 到 输出 是 无 用 的 ， 同 样 
忽略 输入 也 是 没 用 的 。 相 反 ， 两 种 推动 力 结合 是 有 用 的 ， 因 为 它们 驱使 隐藏 的 表示 
能 捕获 有 关 数 据 分 布 结构 的 信息 。 重 要 的 原则 是 ， 自 编码 器 必须 有 能 力 表示 重 构 训 
练 实例 所 需 的 变化 。 如 果 该 数据 生成 分 布 集中 靠近 一 个 低 维 流 形 ， 自 编码 器 能 隐 式 
产生 捕捉 这 个 流 形 局 部 坐标 系 的 表示 : 仅 在 z 周围 关于 流 形 的 相 切 变化 需要 对 应 于 
h= f(a) 中 的 变化 。 因 此 ， 编 码 器 学 习 从 输入 空间 xz 到 表示 空间 的 映射 ， 映 射 仅 对 
沿 着 流 形 方向 的 变化 敏感 ， 并 且 对 流 形 正 交 方向 的 变化 不 敏感。 

图 14.7 中 一 维 的 例子 说 明 ， 我 们 可 以 通过 构建 对 数据 点 周围 的 输入 扰动 不 敏感 
的 重 构 函 数 ， 使 得 自 编码 器 恢复 流 形 结构 。 





— - Identity 
— Optimal reconstruction 























图 14.7: 如 果 自 编码 器 学 习 到 对 数据 点 附近 的 小 扰动 不 变 的 重 构 函 数 ， 它 就 能 捕获 数据 的 流 形 结 
构 。 这 里 ， 流 形 结构 是 0 维 流 形 的 集合 。 虚 线 对 角 线 表示 重 构 的 恒 等 函 数目 标 。 最 佳 重 构 函 数 会 
在 存在 数据 点 的 任意 处 穿 过 恒 等 函 数 。 图 底部 的 水 平 箭头 表示 在 输入 空间 中 基于 箭头 的 r(x) 一 z 
重建 方向 向 量 ， 总 是 指向 最 近 的 “ 流 形 ”( 1 维 情况 下 的 单个 数据 点 )。 在 数据 点 周围 ， 去 噪 自 编 
码 絮 明确 地 尝试 将 重 构 函数 r(z) 的 导数 限制 为 很 小 。 收 缩 自 编码 器 的 编码 器 执行 相同 操作 。 虽 然 
在 数据 点 周围 ，7(z) 的 导数 被 要 求 很 小 ,但 在 数据 点 之 间 它 可 能 会 很 大 。 数 据点 之 间 的 空间 对 应 
于 流 形 之 间 的 区 域 ， 为 将 损坏 点 映射 回流 形 ， 重 构 函 数 必须 具有 大 的 导数 。 































































































为 了 理解 自 编 码 器 可 用 于 流 形 学 习 的 原因 ， 我 们 可 以 将 自 编码 器 和 其 他 方法 进 
行 对 比 。 学习 表征 流 形 最 常见 的 是 流 形 上 (或 附近 ) 数据 点 的 表示 (representation )。 
对 于 特定 的 实例 ,这样 的 表示 也 被 称 为 舰 入 。 它 通常 由 一 个 低 维 向 量 给 出 ,具有 比 这 
个 流 形 的 “外 围 ” 空 间 更 少 的 维 数 。 有 些 算法 (下面 讨 论 的 非 参 数 流 形 学 习 算法 ) E 
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接 学 习 每 个 训练 样 例 的 舱 入 ， 而 其 他 算法 学 习 更 一 般 的 映射 (有 时 被 称 为 编码 器 或 
表示 函数 )， 将 周围 空间 ( 输入 空间 ) 的 任意 点 映射 到 它 的 舰 入 。 

流 形 学 习 大 多 专注 于 试图 捕 提 到 这 些 流 形 的 无 监督 学 习 过 程 。 最 初始 的 学 习 非 
线性 流 形 的 机 器 学 习 人 研究 专 注 基 于 最 近邻 图 (nearest neighbor graph ) 的 非 参 数 
(non-parametric ) 方法 。 该 图 中 每 个 训练 样 例 对 应 一 个 节点 , 它 的 边 连接 近邻 点 对 。 如 
图 14.8 所 示 ， 这 些 方法 (Schélkopf et al., 1998b; Roweis and Saul, 2000; Tenenbaum 
et al., 2000; Brand, 2003b; Belkin and Niyogi, 2003a; Donoho and Grimes, 2003; 
Weinberger and Saul, 2004b; Hinton and Roweis, 2003; van der Maaten and Hinton, 
2008) 将 每 个 节点 与 张 成 实例 和 近邻 之 间 的 差 向 量变 化 方向 的 切 平面 相关 联 。 

















图 14.8: 非 参 数 流 形 学 习 过 程 构建 的 最 近邻 图 ， 其 中 节点 表示 训练 样本 ， 有 向 边 指示 最 近邻 关系 。 
因此 ， 各 种 过 程 可 以 获得 与 图 的 邻 域 相关 联 的 切 平 面 以 及 将 每 个 训练 样本 与 实 值 向 量 位 置 或 典 入 
(embedding ) 相关 联 的 坐标 系 。 我 们 可 以 通过 搬 值 将 这 种 表示 概括 为 新 的 样本 。 只 要 样本 的 数量 
大 到 足以 覆盖 流 形 的 弯曲 和 扭转 ， 这 些 方法 工作 良好 。 图 片 来 自 QMUL 多 角度 人 脸 数据 集 (Gong 
et al., 2000). 

































































全 局 坐标 系 则 可 以 通过 优化 或 求解 线性 系统 获得 。 图 14.9 展示 了 如 何 通过 大 量 
局 部 线性 的 类 高 斯 样 平 铺 (或 “ 薄 煎 饼 ”， 因 为 高 斯 块 在 切 平面 方向 是 扁平 的 ) 得 到 


y A 
一 个 流 形 。 
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图 14.9: 如 果 每 个 位 置 处 的 切 平面 ( 见 图 14.6 ) 是 已 知 的 ， 则 它们 可 以 平 铺 后 形成 全 局 坐标 系 或 
密度 函数 。 每 个 局 部 块 可 以 被 认为 是 局 部 欧 几 里 德 坐标 系 或 者 是 局 部 平面 高 斯 或 “薄饼 "， 在 与 薄 
饼 正 交 的 方向 上 具有 非常 小 的 方差 而 在 定义 坐标 系 的 方向 上 具有 非常 大 的 方差 。 这 些 高 斯 的 混合 
提供 了 估计 的 密度 函数 ， 如 流 形 中 的 Parzen 窗口 算法 (Vincent and Bengio, 2003) 或 其 非 局 部 的 
基于 神经 网 络 的 变 体 (Bengio et al., 2006c)。 









































然而 ，Bengio and Monperrus (2005) 指出 了 这 些 局 部 非 参 数 方法 应 用 于 流 形 学 
习 的 根本 困难 : 如 果 流 形 不 是 很 光滑 ( 它们 有 许多 波峰 、 波 谷 和 曲折 )， 为 覆盖 其 
中 的 每 一 个 变化 ， 我 们 可 能 需要 非常 多 的 训练 样本 ， 导 致 没有 能 力 泛 化 到 没 见 过 的 
变化 。 实 际 上 ， 这 些 方法 只 能 通过 内 插 ， 概 括 相 邻 实 例 之 间 流 形 的 形状 。 不 幸 的 是 ， 
AI 问题 中 涉及 的 流 形 可 能 具有 非常 复杂 的 结构 ， 难 以 仅 从 局 部 插值 捕获 特征 。 考 虑 
图 14.6 转换 所 得 的 流 形 样 例 。 如 果 我 们 只 观察 输入 向 量 内 的 一 个 坐标 zx; ， 当 平移 图 
像 ， 我 们 可 以 观察 到 当 这 个 坐标 遇 到 波峰 或 波 谷 时 ， 图 像 的 亮度 也 会 经 历 一 个 波峰 
或 波 谷 。 换 名 话说， 底层 图 像 模 板 亮度 的 模式 复杂 性 决定 执行 简单 的 图 像 变换 所 产 
生 的 流 形 的 复杂 性 。 这 是 采用 分 布 式 表示 和 深度 学 习 捕 获 流 形 结构 的 动机 。 
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14.7 ”收缩 自 编码 器 


收缩 自 编 码 器 (Rifai et al., 2011a,b) 在 编码 h= f(a) 的 基础 上 添加 了 显 式 的 正 
WWI, Bo f 的 导数 尽 可 能 小 : 


2 


Of (a) 


Ox 


惩罚 项 Q(h) 为 平方 Frobenius 范 数 (元 素平 方 之 和 )， 作 用 于 与 编码 右 的 函数 相 
关 偏 导数 的 Jacobian 矩阵 。 

去 噪 自 编码 器 和 收缩 自 编 码 器 之 间 存 在 一 定 联 系 : Alain and Bengio (2013) 指出 
在 小 高 斯 噪声 的 限制 下 ， 当 重 构 函数 将 z 映射 到 了 = g(f(z)) 时 ,去 噪 重 构 误 差 与 收 
缩 惩 罚 项 是 等 价 的 。 换 句 话 说， 去 噪 自 编码 器 能 抵抗 小 且 有 限 的 输入 扰动 ， 而 收缩 
自 编码 器 使 特征 提取 函数 能 抵抗 极 小 的 输入 扰动 。 

分 类 任务 中 ， 基 于 Jacobian 的 收缩 惩罚 预 训练 特征 函数 f(x)， 将 收缩 惩罚 应 
用 在 f(a) 而 不 是 g(f(z)) 可 以 产生 最 好 的 分 类 精度 。 如 第 14.5.1 节 所 讨论 ， 应 用 于 
f(z) 的 收缩 惩罚 与 得 分 匹配 也 有 紧密 的 联系 。 

收缩 (contractive ) 源 于 CAE 弯曲 空间 的 方式 。 具 体 来 说 ， 由 于 CAE 训练 为 
抵抗 输入 扰动 ， 鼓 励 将 输入 点 邻 域 映射 到 输出 点 处 更 小 的 邻 域 。 我 们 能 认为 这 是 将 
输入 的 邻 域 收缩 到 更 小 的 输出 邻 域 。 

说 得 更 清楚 一 点 ，CAE 只 在 局 部 收缩 个 训练 样本 z 的 所 有 扰动 都 映射 到 
f(a) 的 附近 。 全 局 来 看 ， 两 个 不 同 的 点 zx 和 oe! 会 分 别 被 映射 到 远离 原点 的 两 个 点 
f(a) 和 jz)。 上 扩展 到 数据 流 形 的 中 间或 远 处 是 合理 的 〈 见 图 14.7 中 小 例子 的 情 
况 ), 当 O(h) 惩罚 应 用 于 sigmoid 单元 时 , 收缩 Jacobian 的 简单 方式 是 令 sigmoid 趋 
向 饱和 的 0 或 1。 这 鼓励 CAE 使 用 sigmoid 的 极 值 编码 输入 点 , 或 许可 以 解释 为 二 
进 制 编码 。 它 也 保证 了 CAE 可 以 穿 过 大 部 分 sigmoid 隐藏 单元 能 张 成 的 超 立 方 体 ， 
进而 扩散 其 编码 值 。 

我 们 可 以 认为 点 x 处 的 Jacobian FHKE J 能 将 非 线 性 编码 器 近似 为 线性 算 子 。 这 
允许 我 们 更 形式 地 使 用 “收缩 ”这 个 词 。 在 线性 理论 中 ， 当 Je 的 范 数 对 于 所 有 单位 
2 都 小 于 等 于 1 时 ，J 被 称 为 收缩 的 。 换 名 话说， 如果 J 了 收缩 了 单位 球 ， 他 就 是 收 
缩 的 。 我 们 可 以 认为 CAE 为 鼓励 每 个 局 部 线性 算 子 具 有 收缩 性 ， 而 在 每 个 训练 数据 
点 处 将 Frobenius 范 数 作为 f(x) 的 局 部 线性 近似 的 惩罚 。 

如 第 14.6 节 中 描述 , 正则 自 编 码 器 基于 两 种 相反 的 推动 力学 习 流 形 。 在 CAE 的 


Qh) =A (14.18) 
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情况 下 ， 这 两 种 推动 力 是 重 构 误 差 和 收缩 惩罚 Q(h)。 单 独 的 重 构 误差 鼓励 CAE 学 
习 一 个 恒 等 函数 。 单 独 的 收缩 惩罚 将 鼓励 CAB 学 习 关 于 r 是 恒定 的 特征 。 这 两 种 
推动 力 的 的 折衷 产生 导数 AO 大 多 是 微小 的 自 编码 器 。 只 有 少数 隐藏 单元 ， 对 应 于 
一 小 部 分 输入 数据 的 方向 ， 可 能 有 显著 的 导数 。 

CAE 的 目标 是 学 习 数 据 的 流 形 结构 。 使 Je 很 大 的 方向 z， 会 快速 改变 h, Al 
此 很 可 能 是 近似 流 形 切 平面 的 方向 。Rifai et al. (2011a,b) 的 实验 显示 训练 CAE 会 
导致 J 中 大 部 分 奇异 值 ( 幅 值 ) 比 1 小 ， 因 此 是 收缩 的 。 然 而 ， 有 些 奇异 值 仍然 比 
1 大 ， 因 为 重 构 误 差 的 惩罚 鼓励 CAE 对 最 大 局 部 变化 的 方向 进行 编码 。 对 应 于 最 大 
奇异 值 的 方向 被 解释 为 收缩 自 编码 器 学 到 的 切 方 向 。 理 想 情 况 下 ， 这 些 切 方向 应 对 
应 于 数据 的 真实 变化 。 比 如 ,一 个 应 用 于 图 像 的 CAE 应 该 能 学 到 显示 图 像 改 变 的 切 
向 量 ， 如 图 14.6 图 中 物体 渐渐 改变 状态 。 如 图 14.10 所 示 ， 实验 获得 的 奇异 向 量 的 可 
视 化 似乎 真 的 对 应 于 输入 图 象 有 意义 的 变换 。 


Input | Tangent vectors 


point 





Local PCA (no sharing across regions) 


14.10: 通过 局 部 PCA 和 收缩 自 编码 器 估计 的 流 形 切 向 量 的 图 示 。 流 形 的 位 置 由 来 自 CIFAR-10 
数据 集中 狗 的 输入 图 像 定 义 。 切 向 量 通 过 输入 到 代码 映射 的 Jacobian FEMS! 的 前 导 奇 异 向 量 估 
计 。 虽 然 局 部 PCA 和 CAE 都 可 以 捕获 局 部 切 方向 , 但 CAE 能 够 从 有 限 训练 数据 形成 更 准确 的 
估计 ， 因 为 它 利 用 了 不 同位 置 的 参数 共享 ( 共享 激活 的 隐藏 单元 子 集 )。CAE 切 方向 通常 对 应 于 物 
体 的 移动 或 改变 部 分 ( 例如 头 或 腿 )。 经 Rifai et al. (2011c) 许可 转载 此 图 。 





Contractive autoencoder 


















































收缩 自 编 码 天 正则 化 准则 的 一 个 实际 问题 是 ， 尽 管 它 在 单一 隐藏 层 的 自 编码 
器 情况 下 是 容易 计算 的 ， 但 在 更 次 的 自 编码 器 情况 下 会 变 的 难以 计算 。 根 据 Rifai 
et al. (2011a) 的 策略 ， 分 别 训练 一 系列 单 层 的 自 编码 器 ， 并 且 每 个 被 训练 为 重 构 前 
一 个 自 编 码 需 的 隐藏 层 。 这 些 自 编 码 融 的 组 合 就 组 成 了 一 个 深度 自 编码 器 。 因 为 每 
个 层 分 别 训 练 成 局 部 收缩 ， 深 度 自 编码 器 自然 也 是 收缩 的 。 这 个 结果 与 联合 训练 深 
度 模 型 完整 架构 ( 带 有 关于 Jacobian 的 惩罚 项 ) 获得 的 结果 是 不 同 的 ， 但 它 抓 住 了 
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许多 理想 的 定性 特征 。 

另 一 个 实际 问题 是 ， 如 果 我 们 不 对 解码 器 强加 一 些 约束 ， 收 缩 惩罚 可 能 导致 无 
用 的 结果 。 例 如 ， 编 码 器 将 输入 乘 一 个 小 常数 e， 解 公 器 将 编码 除 以 一 个 小 常数 e。 
随 着 e 趋向 于 0， 编 码 器 会 使 收缩 惩罚 项 Q(h) 趋向 于 0 而 学 不 到 任何 关于 分 布 的 信 
息 。 同 时 ， 解 码 器 保持 完美 的 重 构 。Rifai et al. (2011a) 通过 绑 定 AM g 的 权重 来 
防止 这 种 情况 。f 和 g 都 是 由 线性 仿 射 变换 后 进行 逐 元 素 非 线性 变换 的 标准 神经 网 
络 层 组 成 ， 因 此 将 9 的 权重 矩阵 设 成 f 权重 和 矩阵 的 转 置 是 很 直观 的 。 





14.8 ”预测 稀 琉 分 解 


预测 稀疏 分 解 ( predictive sparse decomposition, PSD ) 是 稀 玻 编码 和 参数 化 自 
编码 器 (Kavukcuoglu et al., 2008) 的 混合 模型 。 参 数 化 编码 器 被 训练 为 能 预测 迭代 
推断 的 输出 。PSD 被 应 用 于 图 片 和 视频 中 对 象 识别 的 无 监督 特征 学 习 (Kavukcuoglu 
et al., 2009, 2010; Jarrett et al., 2009b; Farabet et al., 2011) ， 在 音频 中 也 有 所 应 用 
(Henaff et al., 2011)。 这 个 模型 由 一 个 编码 器 f (ac) 和 一 个 解码 器 g(h) 组 成 ， 并且 都 
是 参数 化 的 。 在 训练 过 程 中 ，h 由 优化 算法 控制 。 优 化 过 程 是 最 小 化 





læ- g(P + AR th FAD. (14.19) 


就 像 稀 玻 编码 ， 训 练 算法 交替 地 相对 h 和 模型 的 参数 最 小 化 上 述 目标 。 相 对 h 最 小 
化 较 快 ;因为 f(a) 提供 h 的 良好 初始 值 以 及 损失 函数 将 h 约束 在 f(x) 附近 。 简 单 
的 梯度 下 降 算 法 只 需 10 步 左 右 就 能 获得 理想 的 h。 

PSD 所 使 用 的 训练 程序 不 是 先 训练 稀疏 编码 模型 ， 然 后 训练 (zx) FEU 
编码 的 特征 。PSD 训练 过 程 正 则 化 解码 器 ， 使 用 f(x) 可 以 推断 出 良好 编码 的 参数 。 

预测 稀 玻 分 解 是 学 习 近 似 推断 (learned approximate inference ) 的 一 个 例子 。 
在 第 19.5 节 中 ， 这 个 话题 将 会 进一步 展开 。 第 十 九 章 中 展示 的 工具 能 让 我 们 了 解 到 ， 
PSD 能 够 被 解释 为 通过 最 大 化 模型 的 对 数 似 然 下 界 训练 有 向 稀 玻 编码 的 概率 模型 。 

在 PSD 的 实际 应 用 中 ， 和 迭代 优化 仅 在 训练 过 程 中 使 用 。 模 型 被 部 署 后 ， 人 参数 编 
tat f 用 于 计算 已 经 习 得 的 特征 。 相 比 通过 梯度 下 降 推 断 h， 计 算 f 是 很 容易 的 。 
因为 f 是 一 个 可 微 带 参 函 数 ，PSD 模型 可 堆 善 ， 并 用 于 初始 化 其 他 训练 准则 的 深度 
网 络 。 
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14.9 ” 自 编码 器 的 应 用 


自 编 码 带 已 成 功 应 用 于 降 维和 信息 检索 任务 。 降 维 是 表示 学 习 和 深度 学 习 的 第 
一 批 应 用 之 一 。 它 是 研究 自 编码 器 早期 驱动 力 之 一 。 例如 , Hinton and Salakhutdinov 
(2006) 训练 了 一 个 栈 式 RBM, 然后 利用 它们 的 权重 初始 化 一 个 隐藏 层 逐 渐 减 小 的 深 
度 自 编码 器 ， 终 结 于 30 个 单元 的 瓶颈 。 生 成 的 编码 比 30 维 的 PCA 产生 更 少 的 重 
构 误 差 ， 所 学 到 的 表示 更 容易 定性 解释 ， 并 能 联系 基础 类 别 ,， 这 些 类 别 表 现 为 分 离 
良好 的 集群 。 

低 维 表示 可 以 提高 许多 任务 的 性 能 ， 例 如 分 类 。 小 空间 的 模型 消耗 更 少 的 内 存 
和 运行 时 间 。 据 Salakhutdinov and Hinton (2007b) 和 Torralba et al. (2008) WE, 
许多 降 维 的 形式 会 将 语义 上 相关 的 样本 置 于 彼此 邻近 的 位 置 。 映 射 到 低 维 空间 所 提 
供 的 线索 有 助 于 泛 化 。 

相 比 普通 任务 ， 信 息 检索 (information retrieval) 从 降 维 中 获 益 更 多 ， 此 任务 
需要 找到 数据 库 中 类 似 查询 的 条 目 。 此 任务 不 仅 和 其 他 任务 一 样 从 降 维 中 获得 一 般 
益处 ,还 使 某 些 低 维 空间 中 的 搜索 变 得 极为 高 效 。 特 别 的 ， 如 果 我 们 训练 降 维 算法 生 
成 一 个 低 维 且 二 值 的 编码 ， 那 么 我 们 就 可 以 将 所 有 数据 库 条 目 在 哈 希 表 映 射 为 二 值 
编码 向 量 。 这 个 哈 希 表 人 允许 我 们 返回 具有 相同 二 值 编码 的 数据 库 条 目 作 为 查询 结 
进行 信息 检索 。 我 们 也 可 以 非常 高 效 地 搜索 稍 有 不 同 条 目 ， 只 需 反 转 查询 编码 的 各 
个 位 。 这 种 通过 降 维和 二 值 化 的 信息 检索 方法 被 称 为 语义 哈 希 (semantic hashing ) 
(Salakhutdinov and Hinton, 2007b, 2009b) , 已 经 被 用 于 文本 输入 (Salakhutdinov and 
Hinton, 2007b, 2009b) 和 图 像 (Torralba et al., 2008; Weiss et al., 2008; Krizhevsky 
and Hinton, 2011). 

通常 在 最 终 层 上 使 用 sigmoid Win eh BOE Ta SCR 49 A (Ait. sigmoid 单元 
必须 被 训练 为 到 达 饱 和 ， 对 所 有 输入 值 都 接近 0 或 接近 1。 能 做 到 这 一 点 的 窍门 就 
是 训练 时 在 sigmoid 非 线 性 单元 前 简单 地 注入 加 性 噪声 。 噪 声 的 大 小 应 该 随时 间 增 
加 。 要 对 抗 这 种 噪音 并 且 保 存 尽 可 能 多 的 信息 ， 网 络 必须 加 大 输入 到 sigmoid 函数 
的 幅度 ， 直 到 饱和 。 

学 习 哈 希 函 数 的 思想 已 在 其 他 多 个 方向 进一步 探讨 ， 包 括 改 变 损 失 训 练 表 
示 的 想法 ， 其 中 所 需 优 化 的 损失 与 哈 希 表 中 查找 附近 样本 的 任务 有 更 直接 的 联系 
(Norouzi and Fleet, 2011). 
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在 本 章 中 ， 首 先 我 们 会 讨论 学 习 表 示 是 什么 意思 ， 以 及 表示 的 概念 如 何 有 助 于 
深度 框架 的 设计 。 我 们 探讨 学 习 算法 如 何在 不 同 任务 中 共享 统计 信息 ， 包 括 使 用 无 
监督 任务 中 的 信息 来 完成 监督 任务 。 共 享 表示 有 助 于 处 理 多 模式 或 多 领域 , 或 是 将 
已 学 到 的 知识 迁移 到 样本 很 少 或 没有 、 但 任务 表示 依然 存在 的 任务 上 。 最 后 ， 我 们 
回 过 头 探讨 表示 学 习 成 功 的 原因 ， 从 分 布 式 表示 (Hinton et al., 1986) 和 深度 表示 的 
理论 优势 ， 最 后 会 讲 到 数据 生成 过 程 潜在 假设 的 更 一 般 概念 ， 特 别 是 观测 数据 的 基 
本 成 因 。 

很 多 信息 处 理 任务 可 能 非常 容易 ， 也 可 能 非常 困难 ， 这 取决 于 信息 是 如 何 表示 
的 。 这 是 一 个 广泛 适用 于 日 常生 活 、 计 算 机 科学 及 机 需 学 习 的 基本 原则 。 例 如 ， 对 于 
人 而 言 ， 可 以 直接 使 用 长 除法 计算 210 除 以 6。 但 如 果 使 用 罗马 数字 表示 ， 这 个 问 
题 就 没 那么 直接 了 。 大 部 分 现代 人 在 使 用 罗马 数字 计算 CCX 除 以 VI 时 ， 都 会 将 其 
转化 成 阿拉 人 数字， 从 而 使 用 位 值 系统 的 长 除法 。 更 具体 地 ， 我 们 可 以 使 用 合适 或 
不 合适 的 表示 来 量化 不 同 操作 的 渐 近 运行 时 间 。 例 如 ， 插 入 一 个 数字 到 有 序 表 中 的 
正确 位 置 ， 如 果 该 数列 表示 为 链表 ， 那 么 所 需 时 间 是 Oln); 如 果 该 列表 表示 为 红 黑 
树 ， 那 么 只 需要 O(logn) 的 时 间 。 

在 机 器 学 习 中 ， 到 底 是 什么 因素 决定 了 一 种 表示 比 另 一 种 表示 更 好 呢 ? 一 般 而 

















言 ， 一 个 好 的 表示 可 以 使 后 续 的 学 习 任务 更 容易 。 选 择 什么 表示 通常 取决 于 后 续 的 
学 习 任 务 。 


我 们 可 以 将 监督 学 习 训练 的 前 馈 网 络 视 为 表示 学 习 的 一 种 形式 。 具 体 地 ， 网 络 
的 最 后 一 层 通常 是 线性 分 类 器 ， 如 softmax 回归 分 类 器 。 网 络 的 其 余部 分 学 习 出 该 
分 类 顺 的 表示 。 监 督学 习 训练 模型 ， 一 般 会 使 得 模型 的 各 个 隐藏 层 ( 特别 是 接近 顶 
层 的 隐藏 层 ) 的 表示 能 够 更 加 容易 地 完成 训练 任务 。 例 如 ， 输 入 特征 线性 不 可 分 的 
类 别 可 能 在 最 后 一 个 隐藏 层 变 成 线性 可 分 离 的 。 原 则 上 ， 最 后 一 层 可 以 是 男 一 种 模 
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型 ， 如 最 近邻 分 类 器 (Salakhutdinov and Hinton, 2007a)。 倒 数 第 二 层 的 特征 应 该 根 
据 最 后 一 层 的 类 型 学 习 不 同 的 性 质 。 

前 馈 网 络 的 监督 训练 并 没有 给 学 成 的 中 间 特 征明 确 强 加 任何 条 件 。 其 他 的 表示 
学 习 算 法 往往 会 以 某 种 特定 的 方式 明确 设计 表示 。 例 如 ， 我 们 想 要 学 习 一 种 使 得 密 
度 估计 更 容易 的 表示 。 具 有 更 多 独立 性 的 分 布 会 更 容易 建 模 ， 因 此 ,我 们 可 以 设计 
WRR HE h 中 元 素 之 间 相 互 独 立 的 目标 函数 。 就 像 监 督 网 络 ， 无 监督 深度 学 习 
算法 有 一 个 主要 的 训练 目标 ,但 也 额外 地 学 习 出 了 表示 。 不 论 该 表示 是 如 何 得 到 的 ， 
它 都 可 以 用 于 其 他 任务 。 或者, 多 个 任务 (有些 是 监督 的 ， 有些 是 无 监督 的 ) 可 以 通 
过 共享 的 内 部 表示 一 起 学 习 。 

大 多 数 表示 学 习 算 法 都 会 在 尽 可 能 多 地 保留 与 输入 相关 的 信息 和 追求 良好 的 性 
质 ( 如 独立 性 ) 之 间作 出 权衡 。 

表示 学 习 特 别 有 趣 ， 因 为 它 提 供 了 进行 无 监督 学 习 和 半 监 督学 习 的 一 种 方法 。 
我 们 通常 会 有 巨 量 的 未 标注 训练 数据 和 相对 较 少 的 标注 训练 数据 。 在 非常 有 限 的 标 
注 数 据 集 上 监督 学 习 通 常会 导致 严重 的 过 拟 合 。 半 监督 学 习 通 过 进一步 学 习 未 标 
注 数 据 ， 来 解决 过 拟 合 的 问题 。 具 体 地 ， 我 们 可 以 从 未 标注 数据 上 学 习 出 很 好 的 表 
示 ， 然 后 用 这 些 表示 来 解决 监督 学 习 问 题 。 

人 类 和 动物 能 够 从 非常 少 的 标注 样本 中 学 习 。 我 们 至 今 仍 不 知道 这 是 如 何 做 到 
的 。 有 许多 假说 解释 人 类 的 卓越 学 习 能 力 一 一 例如 ， 大 脑 可 能 使 用 了 大 量 的 分 类 器 
或 者 贝 叶 斯 推断 技术 的 集成 。 一 种 流行 的 假说 是 ， 大 脑 能 够 利用 无 监督 学 习 和 半 监 
督学 习 。 利 用 未 标注 数据 有 多 种 方式 。 在 本 章 中 ， 我 们 主要 使 用 的 假说 是 未 标注 数 
据 可 以 学 习 出 良好 的 表示 。 





























15.1 贪心 逐 层 无 监督 预 训 练 


无 监督 学 习 在 深度 神经 网 络 的 复兴 上 起 到 了 关键 的 、 历 史 性 的 作用 ， 它 使 研究 
者 首次 可 以 训练 不 含 诸如 卷 积 或 者 循环 这 类 特殊 结构 的 深度 监督 网 络 。 我 们 将 这 一 
过 程 称 为 无 监督 预 训练 (unsupervised pretraining ), 或 者 更 精确 地 ， 贪 心 逐 层 无 监 
督 预 训练 ( greedy layer-wise unsupervised pretraining )。 此 过 程 是 一 个 任务 (无 监 
督学 习 ， 尝 试 获 取 输 入 分 布 的 形状 ) 的 表示 如 何 有 助 于 另 一 个 任务 (具有 相同 输入 
域 的 监督 学 习 ) 的 典型 示例 。 


贪心 逐 层 无 监督 预 训练 依赖 于 单 层 表示 学 习 算法 ， 例 如 RBM、 单 层 自 编码 器 、 
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稀 玻 编码 模型 或 其 他 学 习 淤 在 表示 的 模型 。 每 一 层 使 用 无 监督 学 习 预 训练 ， 将 前 一 
层 的 输出 作为 输入 ， 输 出 数据 的 新 的 表示 。 这 个 新 的 表示 的 分 布 〈 或 者 是 和 其 他 变 
量 比如 要 预测 类 别 的 关系 ) 有 可 能 是 更 简单 的 。 如 算法 15.1 所 示 的 正式 表述 。 











算法 15.1 贪心 逐 层 无 监督 预 训练 的 协定 
给 定 如 下 : 无 监督 特征 学 习 算 法 LL 使 用 训练 集 样 本 并 返回 编码 器 或 特征 函数 f 
原始 输入 数据 是 处, 每 行 一 个 样本 , 并 且 SOX) 是 第 一 阶段 编码 器 关于 X 的 输出 。 
在 执行 精 调 的 情况 下 ， 我 们 使 用 学 习 者 夏 ， 并 使 用 初始 函数 f， 输 入 样本 X (以 及 
在 监督 精 调 情况 下 关联 的 目标 了 Y)， 并 返回 细 调 好 函数 。 阶 段 数 为 m。 

f — 恒 等 函 数 

X=X 
for k=1,...,m do 

f® =L£(X) 

ff of 

X e f(X) 


end for 





if fine-tuning then 
FETUA Y) 

end if 

Return f 





基于 无 监督 标准 的 贪心 逐 层 训练 过 程 ， 早 已 被 用 来 规避 监督 问题 中 深度 神经 网 
络 难以 联合 训练 多 层 的 问题 。 这 种 方法 至 少 可 以 追溯 神经 认 知 机 (Fukushima, 1975). 
深度 学 习 的 复兴 始 于 2006 F, 源 于 发 现 这 种 贪心 学 习 过 程 能 够 为 多 层 联 合 训 练 过 程 
找到 一 个 好 的 初始 值 , 甚至 可 以 成 功 训练 全 连接 的 结构 (Hinton et al., 2006b; Hinton 
and Salakhutdinov, 2006; Hinton, 2006; Bengio et al., 2007d; Ranzato et al., 2007a)。 
在 此 发 现 之 前 ， 只 有 深度 卷 积 网 络 或 深度 循环 网 络 这 类 特殊 结构 的 深度 网 络 被 认为 
是 有 可 能 训练 的 。 现 在 我 们 知道 训练 具有 全 连接 的 深度 结构 时 ， 不 再 需要 使 用 贪心 
逐 层 无 监督 预 训练 ， 但 无 监督 预 训练 是 第 一 个 成 功 的 方法 。 

贪心 逐 层 无 监督 预 训练 被 称 为 贪心 (greedy) 的 ， 是 因为 它 是 一 个 贪心 算法 
(greedy algorithm )， 这 意味 着 它 独立 地 优化 解决 方案 的 每 一 个 部 分 ， 每 一 步 解 决 一 
个 部 分 ,而 不 是 联合 优化 所 有 部 分 。 它 被 称 为 逐 层 的 ( layer-wise ), 是 因为 这 些 独 立 
的 解决 方案 是 网 络 层 。 具 体 地 ,贪心 逐 层 无 监督 预 训练 每 次 处 理 一 层 网 络 ， 训练 第 


wwaibbt.com 0DDDDDDOD 


do rz DES 


15.1 贪心 逐 层 无 监督 预 训练 451 


层 时 保持 前 面 的 网 络 层 不 变 。 特 别 地 ， 低 层 网 络 ( 最 先 训练 的 ) 不 会 在 引入 高 层 网 
络 后 进行 调整 。 它 被 称 为 无 监督 ( unsupervised ) 的 ， 是 因为 每 一 层 用 无 监督 表示 学 
习 算 法 训练 。 然 而 ， 它 也 被 称 为 预 训练 ( pretraining )， 是 因为 它 只 是 在 联合 训练 算 
法 精 调 (fine-tune) 所 有 层 之 前 的 第 一 步 。 在 监督 学 习 任 务 中 ， 它 可 以 被 看 作 是 正 
则 化 项 (在 一 些 实验 中 ， 预 训练 不 能 降低 训练 误差 .但 能 降低 测试 误差 ) 和 参数 初 
始 化 的 一 种 形式 。 

通常 而 言 ,“ 预 训练 ”不 仅 单 指 预 训练 阶段 ， 也 指 结合 预 训 练 和 监督 学 习 的 两 阶 
段 学 习 过 程 。 监 督学 习 阶 段 可 能 会 使 用 预 训练 阶段 得 到 的 顶层 特征 训练 一 个 简单 分 
类 器 ， 或 者 可 能 会 对 预 训练 阶段 得 到 的 整个 网 络 进行 监督 精 调 。 不 管 采用 什么 类 型 
的 监督 学 习 算法 和 模型 ， 在 大 多 数 情况 下 ， 整 个 训练 过 程 几乎 是 相同 的 。 虽 然 无 监 
督学 习 算 法 的 选择 将 明显 影响 到 细节 ， 但 是 大 多 数 无 监督 预 训练 应 用 都 遵循 这 一 基 

贪心 逐 层 无 监督 预 训练 也 能 用 作 其 他 无 监督 学 习 算 法 的 初始 化 ， 比 如 深度 自 编 
44% (Hinton and Salakhutdinov, 2006) 和 具有 很 多 潜 变 量 层 的 概率 模型 。 这 些 模 
型 包括 深度 信念 网 络 (Hinton et al., 2006b) 和 深度 玻 尔 效 曼 机 (Salakhutdinov and 
Hinton, 2009c)。 这 些 深 度 生 成 模型 会 在 第 二 十 章 中 讨论 。 

正如 第 8.7.4 节 所 探讨 的 ， 我 们 也 可 以 进行 贪心 逐 层 监督 预 训 练 。 这 是 建立 在 
训练 浅 层 模型 比 深度 模型 更 容易 的 前 提 下 ， 而 该 前 提 似 乎 在 一 些 情况 下 已 被 证 
实 (Erhan et al., 2010). 








15.1.1 何 时 以 及 为 何 无 监督 预 训练 有 效 ? 


在 很 多 分 类 任务 中 ， 贪 心 逐 层 无 监督 预 训练 能 够 在 测试 误差 上 获得 重大 提升 。 
这 一 观察 结果 始 于 2006 年 对 深度 神经 网 络 的 重新 关注 (Hinton et al., 2006b; Bengio 
et al., 2007d; Ranzato et al., 2007a)。 然 而 ， 在 很 多 其 他 问题 上 ， 无 监督 预 训练 不 能 
带 来 改善 ， 甚 至 还 会 带 来 明显 的 负面 影响 。Ma et al. (2015) 研究 了 预 训练 对 机 需 学 
习 模 型 在 化 学 活性 预测 上 的 影响 。 结 果 发 现 ， 平 均 而 言 预 训练 是 有 轻微 负面 影响 的 ， 
但 在 有 些 问 题 上 会 有 显著 帮助 。 由 于 无 监督 预 训练 有 时 有 效 ， 但 经 常 也 会 带 来 负面 
效果 ， 因 此 很 有 必要 了 解 它 何 时 有 效 以 及 有 效 的 原因 ， 以 确定 它 是 否 适 合用 于 特定 
的 任务 。 

首先 , 要 注意 的 是 这 个 讨论 大 部 分 都 是 针对 贪心 无 监督 预 训 练 而 言 。 还 有 很 多 其 
他 完全 不 同 的 方法 使 用 半 监 督学 习 来 训练 神经 网 络 ， 比 如 第 7.13 节 介 绍 的 虚拟 对 抗 
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训练 。 我 们 还 可 以 在 训练 监督 模型 的 同时 训练 自 编 码 需 或 生成 模型 。 这 种 单 阶段 方 
法 的 例子 包括 判别 RBM (Larochelle and Bengio, 2008a) 和 梯形 网 络 (Rasmus et al., 
2015)， 其 中 整体 目标 是 两 项 之 和 ( 一 个 使 用 标签 ， 另 一 个 仅仅 使 用 输入 )。 

无 监督 预 训 练 结 合 了 两 种 不 同 的 想法 。 第 一 ， 它 利用 了 深度 神经 网 络 对 初始 参 
数 的 选择 ， 可 以 对 模型 有 着 显著 的 正则 化 效果 (在 较 小 程度 上 ， 可 以 改进 优化 ) 的 
想法 。 第 二 ， 它 利用 了 更 一 般 的 想法 一 一 学 习 输 入 分 布 有 助 于 学 习 从 输入 到 输出 的 
映射 。 

这 两 个 想法 都 涉及 到 机 器 学 习 算 法 中 多 个 未 能 完全 理解 的 部 分 之 间 复 杂 的 相互 
作用 。 

第 一 个 想法 ， 即 深度 神经 网 络 初 始 参数 的 选择 对 其 性 能 具有 很 强 的 正则 化 效果 ， 
很 少 有 关于 这 个 想法 的 理解 。 在 预 训 练 变 得 流行 时 ， 在 一 个 位 置 初始 化 模型 被 认为 
会 使 其 接近 某 一 个 局 部 极 小 点 ， 而 不 是 另 一 个 局 部 极 小 点 。 如 今 ， 局 部 极 小 值 不 再 被 
认为 是 神经 网 络 优化 中 的 严重 问题 。 现 在 我 们 知道 标准 的 神经 网 络 训 练 过 程 通常 不 
会 到 达 任 何 形式 的 临界 点 。 仍 然 可 能 的 是 ， 预 训练 会 初始 化 模型 到 一 个 可 能 不 会 到 
达 的 位 置 一 一 例如 ， 某 种 区 域 ， 其 中 代价 函数 从 一 个 样本 点 到 另 一 个 样本 点 变化 很 
大 ， 而 小 批量 只 能 提供 噪声 严重 的 梯度 估计 ， 或 是 某 种 区 域 中 的 Hessian 矩阵 条 件 
数 是 病态 的 ,梯度 下 降 必 须 使 用 非常 小 的 步 长 。 然 而 ,我 们 很 难 准 确 判 断 监督 学 习 期 
间 预 训练 参数 的 哪些 部 分 应 该 保留 。 这 是 现代 方法 通常 同时 使 用 无 监督 学 习 和 监督 
学 习 ， 而 不 是 依 序 使 用 两 个 学 习 阶 段 的 原因 之 一 。 除 了 这 些 复杂 的 方法 可 以 让 监督 
学 习 阶 段 保持 无 监督 学 习 阶段 提取 的 信息 之 外 ， 还 有 一 种 简单 的 方法 ， 固 定 特征 提 
取 器 的 参数 ， 仅 仅 将 监督 学 习作 为 顶层 学 成 特征 的 分 类 器 。 

另 一 个 想法 有 更 好 的 理解 ， 即 学 习 算 法 可 以 使 用 无 监督 阶段 学 习 的 信息 ， 在 监 
督学 习 的 阶段 表现 得 更 好 。 其 基本 想法 是 对 于 无 监督 任务 有 用 的 一 些 特征 对 于 监督 
学 习 任 务 也 可 能 是 有 用 的 。 例 如 ， 如 果 我 们 训练 汽车 和 摩托 车 图 像 的 生成 模型 ， 它 
需要 知道 轮子 的 概念 ， 以 及 一 张 图 中 应 该 有 多 少 个 轮子 。 如 果 我 们 幸运 的 话 ， 无 监 
督 阶段 学 习 的 轮子 表示 会 适合 于 监督 学 习 。 然 而 我 们 还 未 能 从 数学 、 理 论 层面 上 证 
明 ， 因 此 并 不 总 是 能 够 预测 哪 种 任务 能 以 这 种 形式 从 无 监督 学 习 中 受益 。 这 种 方法 
的 许多 方面 高 度 依赖 于 具体 使 用 的 模型 。 例 如 ， 如 果 我 们 希望 在 预 训练 特征 的 顶层 
添加 线性 分 类 器 , 那么 (学习 到 的 ) 特征 必须 使 潜在 的 类 别 是 线性 可 分 离 的 。 这 些 性 
质 通常 会 在 无 监督 学 习 阶 段 自 然 发 生 ， 但 也 并 非 总 是 如 此 。 这 是 另 一 个 监督 和 无 监 
督学 习 同 时 训练 更 可 取 的 原因 一 一 输出 层 施加 的 约束 很 自然 地 从 一 开始 就 包括 在 内 。 
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从 无 监督 预 训练 作为 学 习 一 个 表示 的 角度 来 看 ， 我 们 可 以 期 望 无 监督 预 训练 在 
初始 表示 较 差 的 情况 下 更 有 效 。 一 个 重要 的 例子 是 词 艇 入 。 使 用 one-hot 向 量 表示 
的 词 并 不 具有 很 多 信息 ， 因 为 任意 两 个 不 同 的 one-hot 问 量 之 间 的 距离 (BOF L HE 
离 都 是 2) 都 是 相同 的 。 学 成 的 词 般 入 自然 会 用 它们 彼此 之 间 的 距离 来 编码 词 之 间 
的 相似 性 。 因 此 ， 无 监督 预 训练 在 处 理 单词 时 特别 有 用 。 然 而 在 处 理 图 像 时 是 不 太 
有 用 的 ， 可 能 是 因为 图 像 已 经 在 一 个 很 丰富 的 向 量 空 间 中 ， 其 中 的 距离 只 能 提供 低 
质量 的 相似 性 度量 。 

从 无 监督 预 训 练 作为 正则 化 项 的 角度 来 看 ， 我 们 可 以 期 望 无 监督 预 训练 在 标 
注 样本 数量 非常 小 时 很 有 帮助 。 因 为 无 监督 预 训练 添加 的 信息 来 源 于 未 标注 数据 ， 
所 以 当 未 标注 样本 的 数量 非常 大 时 ， 我 们 也 可 以 期 望 无 监督 预 训练 的 效果 最 好 。 
无 监督 预 训练 的 大 量 未 标注 样本 和 少量 标注 样本 构成 的 半 监 督学 习 的 优势 特别 明 
显 。 在 2011 年 ， 无 监督 预 训练 赢得 了 两 个 国际 迁移 学 习 比 赛 (Mesnil et al., 2011; 
Goodfellow et al., 2011)。 在 该 情景 中 ， 目 标 任务 中 标注 样本 的 数目 很 少 〈 每 类 几 个 
到 几 十 个 )。 这 些 效果 也 出 现在 被 Paine et al. (2014) 严格 控制 的 实验 中 。 

还 可 能 涉及 到 一 些 其 他 的 因素 。 例 如 ， 当 我 们 要 学 习 的 孔 数 非常 复杂 时 ， 无 监 
督 预 训练 可 能 会 非常 有 用 。 无 监督 学 习 不 同 于 权重 衰减 这 样 的 正则 化 项 ， 它 不 偏向 
于 学 习 一 个 简单 的 函数 ， 而 是 学 习 对 无 监督 学 习 任 务 有 用 的 特征 函数 。 如 果真 实 的 
潜在 函数 是 复杂 的 ， 并且 由 输入 分 布 的 规律 塑造 ， 那 么 无 监督 学 习 更 适合 作为 正则 
化 项 。 

除了 这 些 注意 事项 外 , 我 们 现在 分 析 一 些 无 监督 预 训练 改善 性 能 的 成 功 示例 , 并 
解释 这 种 改进 发 生 的 已 知 原因 。 无 监督 预 训练 通常 用 来 改进 分 类 器 ， 并 且 从 减少 测 
试 集 误差 的 观点 来 看 是 很 有 意思 的 。 然 而 ， 无 监督 预 训练 还 有 助 于 分 类 以 外 的 任务 ， 
并 且 可 以 用 于 改进 优化 ， 而 不 仅仅 只 是 作为 正则 化 项 。 例 如 ， 它 可 以 提高 去 噪 自 编 
人 码 带 的 训练 和 测试 重 构 误 差 (Hinton and Salakhutdinov, 2006)。 

Erhan et al. (2010) 进行 了 许多 实验 来 解释 无 监督 预 训练 的 几 个 成 功 原因 。 对 训 
练 误差 和 测试 误差 的 改进 都 可 以 解释 为 ,无 监督 预 训练 将 参数 引入 到 了 其 他 方法 可 
能 探索 不 到 的 区 域 。 神 经 网 络 训 练 是 非 确定 性 的 ， 并且 每 次 运行 都 会 收敛 到 不 同 的 
困 数 。 训 练 可 以 停止 在 梯度 很 小 的 点 ; 也 可 以 提前 终止 结束 训练 ， 以 防 过 拟 合 ; 还 可 
以 停止 在 梯度 很 大 ， 但 由 于 诸如 随机 性 或 Hessian 和 矩阵 病态 条 件 等 问题 难以 找到 合 
适 下 降 方 向 的 点 。 经 过 无 监督 预 训练 的 神经 网 络 会 一 致 地 停止 在 一 片 相同 的 函数 空 
间 区 域 , 但 未 经 过 预 训练 的 神经 网 络 会 一 致 地 停 在 男 一 个 区 域 。 图 15.1 可视化 了 这 
种 现象 。 经 过 预 训练 的 网 络 到 达 的 区 域 是 较 小 的 ， 这 表明 预 训 练 减少 了 估计 过 程 的 
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方差 ， 这 进而 又 可 以 降低 严重 过 拟 合 的 风险 。 换 言 之 ， 无 监督 预 训练 将 神经 网 络 参 
数 初始 化 到 它们 不 易 逃 逸 的 区 域 ， 并 且 遵 循 这 种 初始 化 的 结果 更 加 一 致 ， 和 没有 这 
种 初始 化 相 比 ， 结 果 很 差 的 可 能 性 更 低 。 

Erhan et al. (2010) 也 回答 了 何 时 预 训 练 效 果 最 好 一 一 预 训练 的 网 络 越 深 , 测试 
误差 的 均值 和 方差 下 降 得 越 多 。 值 得 注意 的 是 ， 这 些 实验 是 在 训练 非常 深层 网 络 的 
现代 方法 发 明和 流行 ( 整流 线性 单元 ，Dropout 和 批 标准 化 ) 之 前 进行 的 ， 因 此 对 
于 无 监督 预 训练 与 当前 方法 的 结合 ， 我 们 所 知 甚 少 。 

一 个 重要 的 问题 是 无 监督 预 训练 是 如 何 起 到 正则 化 项 作用 的 。 一 个 假设 是 , 预 训 
练 鼓励 学 习 算 法 发 现 那些 与 生成 观察 数据 的 潜在 原因 相关 的 特征 。 这 也 是 启发 除 无 
监督 预 训练 之 外 许多 其 他 算法 的 重要 思想 ， 将 会 在 第 15.3 节 中 进一步 讨论 。 

与 无 监督 学 习 的 其 他 形式 相 比 ， 无 监督 预 训练 的 缺点 是 其 使 用 了 两 个 单独 的 训 
练 阶段 。 很 多 正则 化 技术 都 具有 一 个 优点 ， 允 许 用 户 通过 调整 单一 超 参数 的 值 来 控 
制 正 则 化 的 强度 。 无 监督 预 训练 没有 一 种 明确 的 方法 来 调整 无 监督 阶段 正则 化 的 强 
度 。 相 反 ， 无 监督 预 训 练 有 许多 超 参 数 ， 但 其 效果 只 能 之 后 度量 ,通常 难以 提前 预 
测 。 当 我 们 同时 执行 无 监督 和 监督 学 习 而 不 使 用 预 训练 策略 时 , 会 有 单个 超 参数 ( 通 
常 是 附加 到 无 监督 代价 的 系数 ) 控制 无 监督 目标 正则 化 监督 模型 的 强度 。 减 少 该 系 
数 ， 总 是 能 够 可 预测 地 获得 较 少 正则 化 强度 。 在 无 监督 预 训练 的 情况 下 ， 没 有 一 种 
灵活 调整 正则 化 强度 的 方式 一 要 么 监督 模型 初始 化 为 预 训练 的 参数 ， 要 么 不 是 。 

具有 两 个 单独 的 训练 阶段 的 另 一 个 缺点 是 每 个 阶段 都 具有 各 自 的 超 参 数 。 第 二 
阶段 的 性 能 通常 不 能 在 第 一 阶段 期 间 预 测 ， 因 此 在 第 一 阶段 提出 超 参 数 和 第 二 阶段 
根据 反馈 来 更 新 之 间 存 在 较 长 的 延迟 。 最 通用 的 方法 是 在 监督 阶段 使 用 验证 集 上 的 
误差 来 挑选 预 训练 阶段 的 超 参数 ， 如 Larochelle et al. (2009) 中 讨论 的 。 在 实际 中 ， 
有 些 超 参数 ， 如 预 训练 迭代 的 次 数 ， 很 方便 在 预 训练 阶段 设 定 ， 通 过 无 监督 目标 上 
使 用 提前 终止 策略 完成 。 这 个 策略 并 不 理想 ， 但 是 在 计算 上 比 使 用 监督 目标 代价 小 
得 多 。 

如 今 , 大 部 分 算法 已 经 不 使 用 无 监督 预 训练 了 , 除了 在 自然 语言 处 理 领域 中 单词 
作为 one-hot 向 量 的 自然 表示 不 能 传达 相似 性 信息 ， 并 且 有 非常 多 的 未 标注 数据 集 
可 用 。 在 这 种 情况 下 , 预 训练 的 优点 是 可 以 对 一 个 巨大 的 未 标注 集合 ( 例如 用 包含 数 
十 亿 单 词 的 语料库 ) 进行 预 训 练 ， 学习 良好 的 表示 (通常 是 单词 , 但 也 可 以 是 句子 )， 
然后 使 用 该 表示 或 精 调 它 ， 使 其 适合 于 训练 集 样 本 大 幅 减 少 的 监督 任务 。 这 种 方法 
由 Collobert and Weston (2008b) Turian et al. (2010) 和 Collobert et al. (2011a) 
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图 15.1: 在 函数 空间 ( 并非 参数 空间 ， 和 避免 从 参数 向 量 到 函数 的 多 对 一 映射 ) 不 同 神经 网 络 的 学 
习 轨 迹 的 非 线 性 映射 的 可 视 化 。 不 同 网 络 采 用 不 同 的 随机 初始 化 ， 并 且 有 的 使 用 了 无 监督 预 训练 ， 
有 的 没有 。 每 个 点 对 应 着 训练 过 程 中 一 个 特定 时 间 的 神经 网 络 。 经 Erhan et al. (2010) 许可 改编 此 
图 。 函 数 空间 中 的 坐标 是 关于 每 组 输入 xz 和 它 的 一 个 输出 y 的 无 限 维 向 量 。Erhan et al. (2010) 
将 很 多 特定 z 的 y 连接 起 来 ， 线 性 投影 到 高 维 空间 中 。 然 后 他 们 使 用 Isomap (Tenenbaum et al., 
2000) 进行 进一步 的 非 线性 投影 并 投 到 二 维 空间 。 颜 色 表示 时 间 。 所 有 的 网 络 初始 化 在 上 图 的 中 心 
点 附近 ( 对 应 的 函数 区 域 在 不 多 数 输 入 上 具有 近似 均匀 分 布 的 类 别 y EREE, SAAD RG PRI 
数 向 外 移动 到 预测 得 更 好 的 点 。 当 使 用 预 训练 时 ， 训 练 会 一 致 地 收敛 到 同一 个 区 域 ， 而 不 使 用 预 
训练 时 ， 训 练 会 收银 到 另 一 个 不 重 释 的 区 域 。Isomap 试图 维持 全 局 相对 距离 (体积 因此 也 保持 不 
变 )， 因 此 使 用 预 训 练 的 模型 对 应 的 较 小 区 域 意味 着 ， 基 于 预 训练 的 估计 具有 较 小 的 方差 。 





























































































































开创 ， 至 今 仍 在 使 用 。 

基于 监督 学 习 的 深度 学 习 技 术 ， 通 过 Dropout 或 批 标准 化 来 正则 化 ， 能 够 在 很 
多 任务 上 达到 人 类 级 别 的 性 能 ， 但 仅仅 是 在 极 大 的 标注 数据 集 上 。 在 中 等 大 小 的 数 
据 集 (例如 CIFAR-10 和 MNIST， 每 个 类 大 约 有 5,000 个 标注 样本 ) 上 ， 这 些 技术 
的 效果 比 无 监督 预 训 练 更 好 。 在 极 小 的 数据 集 ， 例 如 选择 性 剪接 数据 集 ， 贝 叶 斯 方 
法 要 优 于 基于 无 监督 预 训练 的 方法 (Srivastava, 2013)。 由 于 这 些 原 因 ， 无 监督 预 训 
练 已 经 不 如 以 前 流行 。 然 而 , 无 监督 预 训练 仍然 是 深度 学 习 研 究 历史 上 的 一 个 重要 
里 程 碑 ， 并 将 继续 影响 当代 方法 。 预 训练 的 想法 已 经 推广 到 监督 预 训练 ( supervised 
pretraining )， 这 将 在 第 8.7.4 节 中 讨论 ， 在 迁移 学 习 中 这 是 非常 常用 的 方法 。 迁 移 学 
习 中 的 监督 预 训 练 流行 (Oquab et al., 2014; Yosinski et al., 2014) 于 在 ImageNet 数 
据 集 上 使 用 卷 积 网 络 预 训练 。 由 于 这 个 原因 ， 实 践 者 们 公布 了 这 些 网 络 训练 出 的 参 
数 ， 就 像 自 然 语 言 任 务 公 布 预 训练 的 单词 向 量 一 样 (Collobert et al., 2011a; Mikolov 
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et al., 2013a)。 


15.2 ”迁移 学 习 和 领域 自 适应 


迁移 学 习 和 领域 自 适应 指 的 是 利用 一 个 情景 (例如, 分布 P) 中 已 经 学 到 的 内 
容 去 改善 男 一 个 情景 ( 比如 分 布 马 ) 中 的 泛 化 情况 。 这 点 概括 了 上 一 节 提 出 的 想法 ， 
即 在 无 监督 学 习 任 务 和 监督 学 习 任务 之 间 转 移 表 示 。 

在 迁移 学 习 (transfer learning) 中 ， 学 习 需 必须 执行 两 个 或 更 多 个 不 同 的 任务 ， 
但 是 我 们 假设 能 够 解释 Pi 变化 的 许多 因素 和 学 习 Py 需要 抓 住 的 变化 相关 。 这 通常 
能 够 在 监督 学 习 中 解释 ， 输 入 是 相同 的 ， 但 是 输出 不 同 的 性 质 。 例 如 ， 我 们 可 能 在 
第 一 种 情景 中 学 习 了 一 组 视觉 类 别 ， 比 如 猫 和 狗 ， 然 后 在 第 二 种 情景 中 学 习 一 组 不 
同 的 视觉 类 别 ， 比 如 蚂蚁 和 黄蜂 。 如 果 第 一 种 情景 (从 已 采样 ) 中 具有 非常 多 的 数 
据 ， 那么 这 有 助 于 学 习 到 能 够 使 得 从 已 抽取 的 非常 少 样本 中 快速 泛 化 的 表示 。 许 多 
视觉 类 别 共 享 一 些 低级 概念 ， 比 如 边缘 、 视 觉 形状 、 几 何 变化 、 光 照 变 化 的 影响 等 
等 。 一 般 而 言 ， 当 存在 对 不 同情 景 或 任务 有 用 特征 时 ， 并 且 这 些 特 征 对 应 多 个 情景 
出 现 的 潜在 因素 ， 迁 移 学 习 、 多 任务 学 习 (第 7.7 市 ) 和 领域 自 适应 可 以 使 用 表示 学 
习 来 实现 。 如 图 7.2 所 示 ， 这 是 具有 共享 底层 和 任务 相关 上 层 的 学 习 框 架 。 

然而 ， 有 时 不 同 任务 之 间 共 享 的 不 是 输入 的 语义 ， 而 是 输出 的 语义 。 例如， 语 
音 识别 系统 需要 在 输出 层 产 生 有 效 的 句子 ,但 是 输入 附近 的 较 低层 可 能 需要 识别 相 
同音 素 或 子音 素 发 音 的 非常 不 同 的 版 本 〈 这 取决 于 说 话 人 )。 在 这 样 的 情况 下 ， 共 享 
神经 网 络 的 上 层 (输出 附近 ) 和 进行 任务 特定 的 预 处 理 是 有 意义 的 ， 如 图 15.2 所 示 。 

在 领域 自 适应 (domain adaption ) 的 相关 情况 下 ， 在 每 个 情景 之 间 任 务 ( 和 最 
优 的 输入 到 输出 的 映射 ) 都 是 相同 的 , 但 是 输入 分 布 稍 有 不 同 。 例如， 考虑 情感 分 析 
的 任务 ,如 判断 一 条 评论 是 表达 积极 的 还 是 消极 的 情绪 。 网 上 的 评论 有 许多 类 别 。 在 
书 、 视 频 和 音乐 等 媒体 内 容 上 训练 的 顾客 评论 情感 预测 器 ， 被 用 于 分 析 诸 如 电视 机 
或 智能 电话 的 消费 电子 产品 的 评论 时 ， 领 域 自 适应 情景 可 能 会 出 现 。 可 以 想象 ， 存 
在 一 个 潜在 的 函数 可 以 判断 任何 语句 是 正面 的 、 中 性 的 还 是 负面 的 ， 但 是 词汇 和 风 \ 
格 可 能 会 因 领 域 而 有 差异 ， 使 得 跨 域 的 泛 化 训练 变 得 更 加 困难 。 简 单 的 无 监督 预 训 
练 ( 去 品 自 编码 器 ) 已 经 能 够 非常 成 功 地 用 于 领域 自 适应 的 情感 分 析 (Glorot et al., 
2011oc)。 


一 个 相关 的 问题 是 概念 漂移 (concept drift )， 我 们 可 以 将 其 视 为 一 种 迁移 学 习 ， 
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图 15.2: 多 任务 学 习 或 者 迁移 学 习 的 架构 示例 。 输 出 变量 y 在 所 有 的 任务 上 具有 相同 的 语义 ; 输 
入 变量 x 在 每 个 任务 (或 者 ， 比 如 每 个 用 户 ) 上 具有 不 同 的 意义 ( 甚至 可 能 具有 不 同 的 维度 ), 图 
上 三 个 任务 为 x, xO, xO, JEE ORE TAN i) 是 面向 任务 的 ， 上 层 结构 是 共享 的 。 
底层 结构 学 习 将 面向 特定 任务 的 输入 转化 为 通用 特征 。 






























































因为 数据 分 布 随 时 间 而 逐渐 变化 。 概 念 漂移 和 迁移 学 习 都 可 以 被 视 为 多 任务 学 习 的 
特定 形式 。“ 多 任务 学 习 ” 这 个 术语 通常 指 监 督学 习 任务 ， 而 更 广义 的 迁移 学 习 的 概 
念 也 适用 于 无 监督 学 习 和 强化 学 习 。 

在 所 有 这 些 情况 下 ， 我 们 的 目标 是 利用 第 一 个 情景 下 的 数据 ， 提 取 那 些 在 第 二 
种 情景 中 学 习 时 或 直接 进行 预测 时 可 能 有 用 的 信息 。 表 示 学 习 的 核心 思想 是 相同 的 
表示 可 能 在 两 种 情景 中 都 是 有 用 的 。 两 个 情景 使 用 相同 的 表示 ， 使 得 表示 可 以 受益 
于 两 个 任务 的 训练 数据 。 

如 前 所 述 ， 迁 移 学 习 中 无 监督 深度 学 习 已 经 在 一 些 机 器 学 习 比 赛 中 取得 了 成 
功 (Mesnil et al., 2011; Goodfellow et al., 2011)。 这 些 比赛 中 的 某 一 个 实验 配置 如 
下 。 首 先 每 个 参与 者 获得 一 个 第 一 种 情景 (来 自分 布 P,) 的 数据 集 ， 其 中 含有 一 些 
类 别 的 样本 。 参 与 者 必须 使 用 这 个 来 学 习 一 个 良好 的 特征 空间 (将 原始 输入 映射 到 
某 种 表示 ), 使 得 当 我 们 将 这 个 学 成 变换 用 于 来 自 迁 移 情景 (分布 Pa) 的 输入 时 , 线 
生 分 类 器 可 以 在 很 少 标注 样本 上 训练 、 并 泛 化 得 很 好 。 这 个 比赛 中 最 引 人 注 目的 结 
果 之 一 是 ， 学 习 表示 的 网 络 架 构 越 深 ( 在 第 一 个 情景 忆 中 的 数据 使 用 纯 无 监督 方式 
学 习 ), 在 第 二 个 情景 (迁移 ) 已 的 新 类 别 上 学 习 到 的 曲线 就 越 好 。 对 于 深度 表示 而 
言 ， 迁 移 任务 只 需要 少量 标注 样本 就 能 显著 地 提升 泛 化 性 能 。 
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迁移 学 习 的 两 种 极端 形式 是 一 次 学 习 ( one-shot learning ) M ẸRI ( zero- 
shot learning )， 有 时 也 被 称 为 零 数据 学 习 ( zero-data learning )。 只 有 一 个 标注 样本 
的 迁移 任务 被 称 为 一 次 学 习 ; 没有 标注 样本 的 迁移 任务 被 称 为 零 次 学 习 。 

因为 第 一 阶段 学 习 出 的 表示 就 可 以 清楚 地 分 离 出 潜在 的 类 别 ， 所 以 一 次 学 
习 (Fei-Fei et al., 2006) 是 可 能 的 。 在 迁移 学 习 阶 段 ， 仪 需要 一 个 标注 样本 来 推断 表 
示 空 间 中 到 集 在 相同 点 周围 许多 可 能 测试 样本 的 标签 。 这 使 得 在 学 成 的 表示 空间 中 ， 
对 应 于 不 变性 的 变化 因子 已 经 与 其 他 因子 完全 分 离 ， 在 区 分 某 些 类 别 的 对 象 时 ， 我 
们 可 以 学 习 到 哪些 因素 具有 决定 意义 。 

考虑 一 个 零 次 学 习 情 景 的 例子 ， 学 习 器 已 经 读 取 了 大 量 文本 ， 然 后 要 解决 对 象 
识别 的 问题 。 如 果 文 本 足够 好 地 描述 了 对 象 ， 那 么 即使 没有 看 到 某 对 象 的 图 像 ， 也 
能 识别 出 该 对 象 的 类 别 。 例 如 ,已 知 猫 有 四 条 腿 和 尖 尖 的 耳 打 ， 那 么 学 习 咒 可 以 在 
没有 见 过 猫 的 情况 下 猜测 该 图 像 中 是 猫 。 

只 有 在 训练 时 使 用 了 额外 信息 ， 零 数据 学 习 (Larochelle et al., 2008) 和 零 次 学 
习 (Palatucci et al., 2009; Socher et al., 2013b) 才 是 有 可 能 的 。 我 们 可 以 认为 零 数据 
学 习 场 景 包含 三 个 随机 变量 : 传统 输入 z， 传 统 输出 或 目标 y， 以 及 描述 任务 的 附 
加 随机 变量 全 。 该 模型 被 训练 来 估计 条 件 分 布 p(y | cT), KP T 是 我 们 希望 执行 
的 任务 的 描述 。 在 我 们 的 例子 中 ， 读 取 猫 的 文本 信息 然后 识别 猫 ， 输 出 是 二 元 变量 
Y, y=1 表示 “是 ”, y = 0 表示 “不 是 ”。 任 务 变 量 T 表示 要 回答 的 问题 ， 例 如 “这 
个 图 像 中 是 否 有 猫 ? ”如 果 训 练 集 包 含 和 了 在 相同 空间 的 无 监督 对 象 样本 ,我 们 也 
许 能 够 推断 未 知 的 全 实例 的 含义 。 在 我 们 的 例子 中 ， 没 有 提前 看 到 猫 的 图 像 而 去 识 
别 猫 ， 所 以 拥有 一 些 未 标注 文本 数据 包含 句子 诸如 “ 猫 有 四 条 腿 ” 或 “ 猫 有 人 尖 耳 朱 ”， 
对 于 学 习 非 常 有 帮助 。 

零 次 学 习 要 求 T 被 表示 为 某 种 形式 的 泛 化 。 例 如 ，T 不 能 仅 是 指示 对 象 类 别 
的 one-hot 编 码 。 通 过 使 用 每 个 类 别 词 的 词 艇 入 表示 ，Socher et al. (2013b) 提出 了 对 
象 类 别 的 分 布 式 表示 。 

我 们 还 可 以 在 机 需 翻 译 中 发 现 一 种 类 似 的 现象 (Klementiev et al., 2012; Mikolov 
et al., 2013b; Gouws et al., 2014): 我 们 已 经 知道 一 种 语言 中 的 单词 ， 还 可 以 学 到 单 
一 语言 语料库 中 词 与 词 之 间 的 关系 ; 另 一 方面 ， 我 们 已 经 翻译 了 一 种 语言 中 的 单词 
与 男 一 种 语言 中 的 单词 相关 的 句子 。 即 使 我 们 可 能 没有 将 语言 X 中 的 单词 A 翻译 
成 语言 Y 中 的 单词 B 的 标注 样本 ， 我 们 也 可 以 泛 化 并 猜 出 单词 4 的 翻译 ， 这 是 由 
于 我 们 已 经 学 习 了 语言 X 和 了 单词 的 分 布 式 表示 ， 并 且 通 过 两 种 语言 句子 的 匹配 
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对 组 成 的 训练 样本 ,产生 了 关联 于 两 个 空间 的 链接 ( 可 能 是 双向 的 )。 如 果 联 合 学 习 
三 种 成 分 ( 两 种 表示 形式 和 它们 之 间 的 关系 )， 那 么 这 种 迁移 将 会 非常 成 功 。 

零 次 学 习 是 迁移 学 习 的 一 种 特殊 形式 。 同 样 的 原理 可 以 解释 如 何 能 执行 多 模 
态 学 习 (multimodal learning )， 学 习 两 种 模 态 的 表示 ， 和 一 种 模 态 中 的 观察 结果 z 
与 另 一 种 模 态 中 的 观察 结果 y 组 成 的 对 (zx, y) 之 间 的 关系 〈 通 常 是 一 个 联合 分 布 ) 
(Srivastava and Salakhutdinov, 2012)。 通 过 学 习 所 有 的 三 组 参数 (从 x 到 它 的 表示 、 
M y 到 它 的 表示 ， 以 及 两 个 表示 之 间 的 关系 ), 一 个 表示 中 的 概念 被 销 定 在 男 一 个 表 
示 中 ， 反 之 亦 然 ， 从 而 可 以 有 效 地 推广 到 新 的 对 组 。 这 个 过 程 如 图 15.3 所 示 。 
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多 一 SDaCe 





— — = (x,y) pairs in the training set 


œ> fzr: encoder function for x 


=œ =œ = fy: encoder function for y 


PA > Relationship between embedded points within one of the domains 


<4 Maps between representation spaces 








图 15.3: 两 个 域 = 和 y 之 间 的 迁移 学 习 能 够 进行 零 次 学 习 。 标 注 或 未 标注 样本 x FY LAE OJ Zea PAI 
数 foo FEER, ER y 也 可 以 学 习 表示 函数 fy EEP fe 和 fy 旁 都 有 一 个 向 上 的 箭头 ， 不 同 
的 第 头 表示 不 同 的 作用 函数 。 并 且 第 头 的 类 型 表示 使 用 了 哪 一 种 函数 。h 空间 中 的 相似 性 度量 表 
示 z 空间 中 任意 点 对 之 间 的 距离 ， 这 种 度量 方式 比 直 接 度 量 x 空间 的 距离 更 好 。 同 样 地 ，hy 空间 
中 的 相似 性 度量 表示 y 空间 中 任意 点 对 之 间 的 距离 。 这 两 种 相似 函数 都 使 用 带 点 的 双向 箭头 表示 。 
标注 样本 〈 水 平 虚线 ) (x,y) 能 够 学 习 表 示 fala) 和 表示 fy(y) 之 间 的 单 向 或 双向 映射 ( 实 双向 箭 
头 )， 以 及 这 些 表 示 之 间 如 何 锚 定 。 零 数据 学 习 可 以 通过 以 下 方法 实现 。 像 ztest 可 以 和 单词 Yost 


























关联 起 来 ， 即 使 该 单词 没有 像 ， 仅 仅 是 









































因为 上 














词 表 示 fy( Ytest) 和 像 表 示 fo( test) NIRE 


间 的 映射 彼此 关联 。 这 种 方法 有 效 的 原因 是 ， 尽 管 像 和 单词 没有 匹配 成 队 ， 但 是 它们 各 自 的 特征 
向 量 fo(atest) 和 fy(Yrost) 互相 关联 。 上 图 受 Hrant Khachatrian 的 建议 启发 。 











15.3 “ 半 监 督 解释 因果 关系 





表示 学 习 的 一 个 重要 问题 是 “什么 原因 能 够 使 一 个 表示 比 另 一 个 表示 更 好 ? ”一 
种 假设 是 ， 理 想 表示 中 的 特征 对 应 到 观测 数据 的 潜在 成 因 ， 特 征 空间 中 不 同 的 特征 
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或 方向 对 应 着 不 同 的 原因 ， 从 而 表示 能 够 区 分 这 些 原 因 。 这 个 假设 促使 我 们 去 寻找 
表示 p(x) 的 更 好 方法 。 如 果 y 是 z 的 重要 成 因 之 一 ， 那 么 这 种 表示 也 可 能 是 计算 
ply | x) 的 一 种 良好 表示 。 从 20 世纪 90 年 代 以 来 ， 这 个 想法 已 经 指导 了 大 量 的 深度 
学 习 人 研究 工作 (Becker and Hinton, 1992; Hinton and Sejnowski, 1999)。 关 于 半 监 督 
学 习 可 以 超过 纯 监 督学 习 的 其 他 论点 ， 请 读者 参考 Chapelle et al. (2006b) 的 第 1.2 
To 











在 表示 学 习 的 其 他 方法 中 ， 我 们 大 多 关注 易于 建 模 的 表示 PiU, BRA ih 
或 是 各 项 之 间 相 互 独 立 的 情况 。 能 够 清楚 地 分 离 出 潜在 因素 的 表示 可 能 并 不 一 定 易 
于 建 模 。 然而, 该 假设 促使 半 监 督学 习 使 用 无 监督 表示 学 习 的 一 个 更 深层 原因 是 , 对 
于 很 多 人 工 智能 任务 而 言 ， 有 两 个 相 随 的 特点 : 一 旦 我 们 能 够 获得 观察 结果 基本 成 
因 的 解释 ， 那 么 将 会 很 容易 分 离 出 个 体 属性 。 具 体 来 说 ， 如 果 表 示 向 量 h 表示 观察 
E z 的 很 多 潜在 因素 ， 并 且 输 出 向 量 y 是 最 为 重要 的 原因 之 一 , 那么 从 hh 预测 y 会 
很 容易 。 

首先 ， 让 我 们 看 看 p(x) 的 无 监督 学 习 无 助 于 学 习 p(y |x) 时 ， 半 监督 学 习 为 何 
失败 。 例 如 , 考虑 一 种 情况 ，p(x) 是 均匀 分 布 的 ， 我们 希望 学 习 f(x) = Ely | al. 
然 ， 仅 仅 观 察 训练 集 的 值 z 不 能 给 我 们 关于 ply | x) 的 任何 信息 。 

接 下 来 ， 让 我 们 看 看 半 监 督学 习 成 功 的 一 个 简单 例子 。 考 虑 这 样 的 情况 ,，x 来 
自 一 个 混合 分 布 ， 每 个 y 值 具有 一 个 混合 分 量 ， 如 图 15.4 所 示 。 如 果 混 合 分 量 很 好 
WERKT, MAE p(x) 可 以 精确 地 指出 每 个 分 量 的 位 置 ， 每 个 类 一 个 标注 样本 
的 训练 集 足 以 精确 学 习 p(y | x)。 但 是 更 一 般 地 ， 什 么 能 将 p(y | x) 和 p(x) 关联 在 
一 起 呢 ? 

WR y 与 x 的 成 因 之 一 非常 相关 ， 那 么 p(x) 和 ply | x) 也 会 紧密 关联 ， 试 图 
找到 变化 潜在 因素 的 无 监督 表示 学 习 可 能 像 半 监督 学 习 一 样 有 用 。 

假设 y 是 x 的 成 因 之 一 , 让 h 代表 所 有 这 些 成 因 。 真 实 的 生成 过 程 可 以 被 认为 
是 根据 这 个 有 向 图 模型 结构 化 出 来 的 ， 其 中 h 是 x 的 父 节 点 : 





























p(h, x) = p(x | h)p(h). (15.1) 


因此 ， 数 据 的 边缘 概率 是 











p(z) = Enp(z | h). (15.2) 


从 这 个 直观 的 观察 中 ,我 们 得 出 结论 ,x 最 好 可 能 的 模型 ( 从 广义 的 观点 ) 是 会 表示 
上 述 “ 真 实 ” 结 构 的 ， 其 中 h 作为 潜 变 量 解释 z 中 可 观察 的 变化 。 上 文 讨论 的 “ 理 
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p(x) 











图 15.4: 混合 模型 。 具 有 三 个 混合 分 量 的 x 上 混合 密度 示例 。 混 合 分 量 的 内 在 本 质 是 潜在 解释 因 
子 y。 因 为 混合 分 量 〈 例 如 ， 图 像 数据 中 的 自然 对 象 类 别 ) 在 统计 学 上 是 显著 的 ， 所 以 仅仅 使 用 未 
标注 样本 无 监督 建 模 p(x) 也 能 揭示 解释 因子 y。 


























想 ” 的 表示 学 习 应 该 能 够 反映 出 这 些 潜在 因子 。 如 果 y 是 其 中 之 一 (或 是 紧密 关联 
于 其 中 之 一 )， 那 么 将 很 容易 从 这 种 表示 中 预测 ys 我 们 会 看 到 给 定 x 下 y 的 条 件 
分 布 通过 贝 叶 斯 规则 关联 到 上 式 中 的 分 量 : 





(x | ypy) 


oP 
ply |x) = me (15.3) 


因此 边缘 概率 p(x) 和 条 件 概率 p(y | x) 密切 相关 ， 前 者 的 结构 信息 应 该 有 助 于 学 习 
后 者 。 因 此 ， 在 这 些 假设 情况 下 ， 半 监督 学 习 应 该 能 提高 性 能 。 

关于 这 个 事实 的 一 个 重要 的 研究 问题 是 ， 大 多 数 观 察 是 由 极其 大 量 的 潜在 成 
因 形 成 的 。 假 设 y = h;, 但 是 无 监督 学 习 器 并 不 知道 是 哪 一 个 h;。 对 于 一 个 无 监 
督学 习 央 暴力 求解 就 是 学 习 一 种 表示 ， 这 种 表示 能 够 捕获 所 有 合理 的 重要 生成 因子 
h;， 并 将 它们 彼此 区 分 开 来 ， 因 此 不 管 h; 是 否 关联 于 y， 从 h 预测 y 都 是 容易 的 。 

在 实践 中 ， 暴 力求 解 是 不 可 行 的 ， 因 为 不 可 能 捕获 影响 观察 的 所 有 或 大 多 数 变 
化 因素 。 例如 ,在 视觉 场景 中 ,表示 是 否 应 该 对 背景 中 的 所 有 最 小 对 象 进行 编码 ? 根 
据 一 个 有 据 可 查 的 心理 学 现象 ， 人 们 不 会 察觉 到 环境 中 和 他 们 所 在 进行 的 任务 并 不 
立刻 相关 的 变化 ， 具 体例 子 可 以 参考 Simons and Levin (1998)。 半 监督 学 习 的 一 个 
重要 研究 前 沿 是 确定 每 种 情况 下 要 编码 什么 。 目 前 ， 处 理 大 量 潜在 原因 的 两 个 主要 
策略 是 ， 同 时 使 用 无 监督 学 习 和 监督 学 习 信号 ， 从 而 使 得 模型 捕获 最 相关 的 变动 因 
素 ， 或 是 使 用 纯 无 监督 学 习 学 习 更 大 规模 的 表示 。 
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无 监督 学 习 的 另 一 个 思路 是 选择 一 个 更 好 的 确定 哪些 潜在 因素 最 为 关键 的 定义 。 
之 前 ， 自 编码 器 和 生成 模型 被 训练 来 优化 一 个 类 似 于 均 方 误差 的 固定 标准 。 这 些 固 
定 标 准确 定 了 哪些 因素 是 重要 的 。 例 如 ， 图像 像素 的 均 方 误差 隐 式 地 指定 ， 一 个 潜 
在 因素 只 有 在 其 显著 地 改变 大 量 像素 的 亮度 时 ， 才 是 重要 影响 因素 。 如 果 我 们 希望 
解决 的 问题 涉及 到 小 对 象 之 间 的 相互 作用 ， 那 么 这 将 有 可 能 遇 到 问题 。 如 图 15.5 所 
AN, 在 机 器 人 任务 中 ， 自 编码 带 未 能 学 习 到 编码 小 乒乓 球 。 同样 是 这 个 机 融 人 , 它 可 
以 成 功 地 与 更 大 的 对 象 进行 交互 ( 例如 棒球 ， 均 方 误差 在 这 种 情况 下 很 显著 )。 


输入 重 构 





图 15.5: 机 器 人 任务 上 ， 基 于 均 方 误差 训练 的 自 编码 器 不 能 重 构 乒 乓 球 。 乒 乓 球 的 存在 及 其 所 有 空 
间 坐 标 ， 是 生成 图 像 且 与 机 器 人 任务 相关 的 重要 潜在 因素 。 不 笠 的 是 ， 自 编码 器 具有 有 限 的 容量 ， 
基于 均 方 误差 的 训练 没 能 将 乒乓 球 作为 显著 物体 识别 出 来 编码 。 以 上 图 像 由 Chelsea Finn 提供 。 
































还 有 一 些 其 他 的 显著 性 的 定义 。 例 如， 如 果 一 组 像素 具有 高 度 可 识别 的 模式 ， 那 
么 即使 该 模式 不 涉及 到 极端 的 亮度 或 暗 度 ， 该 模式 还 是 会 被 认为 非常 显著。 实现 这 
样 一 种 定义 显著 的 方法 是 使 用 最 近 提 出 的 生成 式 对 抗 网 络 ( generative adversarial 
network ) (Goodfellow et al., 2014c)。 在 这 种 方法 中 ， 生 成 模型 被 训练 来 愚弄 前 馈 分 
类 右 。 前 馈 分 类 融 尝 试 将 来 自生 成 模型 的 所 有 样本 识别 为 假 的 ， 并 将 来 自 训 练 集 的 
所 有 样本 识别 为 真 的 。 在 这 个 框架 中 ， 前 馈 网 络 能 够 识别 出 的 任何 结构 化 模式 都 是 
非常 显著 的 。 生 成 式 对 抗 网 络 会 在 第 20.10.4 节 中 更 详细 地 介绍 。 为 了 叙述 方便 ， 知 
道 它 能 学 习 出 如 何 决定 什么 是 显著 的 就 可 以 了 。Lotter et al. (2015) 表明 ， 生 成 人 类 
头 部 头像 的 模型 在 使 用 均 方 误差 训练 时 往往 会 忽视 耳 杀 ， 但 是 对 抗 式 框架 学 习 能 够 
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成 功 地 生成 耳 条 。 因 为 耳 休 与 周围 的 皮肤 相 比 不 是 非常 明亮 或 黑暗 ， 所 以 根据 均 方 
误差 损失 它们 不 是 特别 突出 ,但 是 它们 高 度 可 识别 的 形状 和 一 致 的 位 置 意 味 着 前 馈 
网 络 能 够 轻易 地 学 习 出 如 何 检 测 它们 ， 从 而 使 得 它们 在 生成 式 对 抗 框架 下 是 高 度 突 
出 的 。 图 15.6 给 了 一 些 样 例 图 片 。 生 成 式 对 抗 网 络 只 是 确定 应 该 表示 哪些 因素 的 一 
小 步 。 我 们 期 望 未 来 的 研究 能 够 发 现 更 好 的 方式 来 确定 表示 哪些 因素 , 并且 根据 任 
务 来 开发 表示 不 同 因素 的 机 制 。 


真实 图 MSE 对 抗 学 习 





15.6: 预测 生成 网 络 是 一 个 学 习 哪 些 特征 显著 的 例子 。 在 这 个 例子 中 ,预测 生成 网 络 已 被 训练 成 
在 特定 视角 预测 人 头 的 3D 模型 。( 左 ) 真实 情况 。 这 是 一 张 网 络 应 该 生成 的 正确 图 片 。( 中 ) 由 具 
有 均 方 误差 的 预测 生成 网 络 生成 的 图 片 。 因 为 与 相 邻 皮肤 相 比 ， 耳 杂 不 会 引起 亮度 的 极 大 差异 ， 所 
以 它们 的 显著 性 不 足以 让 模型 学 习 表 示 它 们 。( 右 ) 由 具有 均 方 误差 和 对 抗 损失 的 模型 生成 的 图 片 。 
使 用 这 个 学 成 的 代价 函数 ， 由 于 耳 条 遵循 可 预测 的 模式 ， 因 此 耳 朱 是 显著 重要 的 。 学 习 哪 些 原因 
对 于 模型 而 言 是 足够 重要 和 相关 的 , 是 一 个 重要 的 活跃 研究 领域 。 以 上 图 片 由 Lotter et al. (2015) 
提供 。 














正如 Schélkopf et al. (2012) 指出 ， 学 习 湾 在 因素 的 好 处 是 ， 如 果真 实 的 生成 过 
程 中 x 是 结果 ，y 是 原因 ， 那 么 建 模 p(x | y) 对 于 p(y) 的 变化 是 鲁 棒 的 。 如 果 因 果 
关系 被 逆转 ， 这 是 不 对 的 ， 因 为 根据 贝 叶 斯 规则 ，p(x | y) 将 会 对 p(y) 的 变化 十 分 
敏感 。 很 多 时 候 ， 我 们 考虑 分 布 的 变化 ( 由 于 不 同 领域 、 时 间 不 稳定 性 或 任务 性 质 
的 变化 ) 时 ， 因 果 机 制 是 保持 不 交 的 (“宇宙 定律 不 变 ”)， 而 潜在 因素 的 边缘 分 布 是 
会 变化 的 。 因 此 ， 通 过 学 习 试 图 恢复 成 因 向 量 h 和 p(x | h) 的 生成 模型 ， 我 们 可 以 
期 望 最 后 的 模型 对 所 有 种 类 的 变化 有 更 好 的 泛 化 和 和 鲁 棒 性 。 
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15.4 ”分 布 式 表示 


分 布 式 表 示 的 概念 ( 由 很 多 元 素 组 合 的 表示 ， 这 些 元 素 之 间 可 以 设置 成 可 分 离 
的 ) 是 表示 学 习 最 重要 的 工具 之 一 。 分 布 式 表 示 非 常 强 大 ， 因 为 他 们 能 用 具有 个 
值 的 ”个 特征 去 描述 ke 个 不 同 的 概念 。 正 如 我 们 在 本 书 中 看 到 的 , 具有 多 个 隐藏 单 
元 的 神经 网 络 和 具有 多 个 潜 变 量 的 概率 模型 都 利用 了 分 布 式 表示 的 策略 。 我 们 现在 
再 介绍 一 个 观察 结果 。 许 多 深度 学 习 算法 基于 的 假设 是 ， 隐 藏 单 元 能 够 学 习 表 示 出 
解释 数据 的 潜在 因果 因子 ， 就 像 第 15.3 节 中 讨论 的 一 样 。 这 种 方法 在 分 布 式 表示 上 
是 自然 的 ， 因 为 表示 空间 中 的 每 个 方向 都 对 应 着 一 个 不 同 的 潜在 配置 变量 的 值 。 

n 维 二 元 向 量 是 一 个 分 布 式 表示 的 示例 ， 有 2” 种 配置 ， 每 一 种 都 对 应 输入 空间 
中 的 一 个 不 同 区 域 ， 如 图 15.7 所 示 。 这 可 以 与 符号 表示 相 比 较 ， 其 中 输入 关联 到 单 
一 符号 或 类 别 。 如 果 字 典 中 有 n MES, 那么 可 以 想象 有 元 个 特征 监测 器 ， 每 个 
特征 探测 融 监 测 相关 类 别 的 存在 。 在 这 种 情况 下 ， 只 有 表示 空间 中 nn 个 不 同 配置 才 
有 可 能 在 输入 空间 中 刻画 n 个 不 同 的 区 域 ， 如 图 15.8 所 示 。 这 样 的 符号 表示 也 被 称 
为 one-hot 表示 ， 因 为 它 可 以 表示 成 相互 排斥 的 n 维 二 元 向 量 (其 中 只 有 一 位 是 激 
活 的 )。 符 号 表示 是 更 广泛 的 非 分 布 式 表示 类 中 的 一 个 具体 示例 ， 它 可 以 包含 很 多 条 
目 ， 但 是 每 个 条 目 没 有 显著 意义 的 单独 控制 作用 。 

以 下 是 基于 非 分 布 式 表示 的 学 习 算 法 的 示例 : 























e RETIA, WA k-means 算法 : 每 个 输入 点 恰好 分 配 到 一 个 类 别 。 


。 上 -最 近邻 算法 : 给 定 一 个 输入 , 一 个 或 几 个 模板 或 原型 样本 与 之 关联 。 在 大 > 1 
的 情况 下 ， 每 个 输入 都 使 用 多 个 值 来 描述 ， 但 是 它们 不 能 彼此 分 开 控制 ， 因 此 
这 不 能 算 真正 的 分 布 式 表示 。 


。 决策 树 : 给 定 输入 时 ， 只 有 一 个 叶 节 点 (和 从 根 到 该 叶 节 点 路 径 上 的 点 ) 是 被 
激活 的 。 

。 高 斯 混合 体 和 专家 混合 体 : 模板 ( 聚 类 中 心 ) 或 专家 关联 一 个 激活 的 程度 。 和 
-最 近邻 算法 一 样 ， 每 个 输入 用 多 个 值 表示 ,但 是 这 些 值 不 能 轻易 地 彼此 分 开 
控制 。 





。 具 有 高 斯 核 (或 其 他 类 似 的 局 部 核 ) 的 核 机 器 : 尽管 每 个 “支持 向 量 ” 或 模板 
样本 的 激活 程度 是 连续 值 ， 但 仍然 会 出 现 和 高 斯 混合 体 相同 的 问题 。 
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he hg 


h = [1,0,0]! 





h = [0,1;0] 7 h = [0,1,1] " 








h = [0,0,1]! 





图 15.7: 基于 分 布 式 表示 的 学 习 算 法 如 何 将 输入 空间 分 割 成 多 个 区 域 的 图 示 。 这 个 例子 具有 二 元 























变量 hi1，h2，hs。 每 个 特征 通过 为 学 成 的 线性 变换 设 定 输出 阀 值 而 定义 。 每 个 特征 将 R? 分 成 












































fea 





个 半 平 面 。 令 hy 表示 输入 点 hi = 1 的 集合 ; hi 表示 输入 点 hi = 0 的 集合 。 在 这 个 图 示 中 ， 
条 线 代表 着 一 个 hi 的 决策 边界 ， 对 应 的 箭头 指向 边界 的 hi 区 域 。 整 个 表示 在 这 些 半 平面 的 每 个 








示 和 图 15.8 中 的 非 分 布 式 表 示 进 行 比 较 。 在 输入 维度 是 d 
































相交 区 域 都 指定 一 个 唯一 值 。 例 如 ， 表 示 值 为 [1, 1, 了 ]” 对 应 着 区 域 AP MAT OAS. ALL ER 











的 一 般 情况 下 ， 分 布 式 表示 通过 半空 间 























( 而 不 是 半 平 面 ) 的 交叉 分 割 R*。 具 有 n 个 特征 的 分 布 式 表示 给 Ont) 个 不 同 区 域 分 配 唯一 的 编 
码 ， 而 具有 mn 个 样本 的 最 近邻 算法 只 能 给 n 个 不 同 区 域 分 配 唯 一 的 编码 。 因 此 ， 分 布 式 表示 能 够 
比 非 分 布 式 表 示 多 分 配 指数 级 的 区 域 。 注 意 并 非 所 有 的 h 值 都 是 可 取 的 ( 这 个 例子 中 没有 hh = 0), 
在 分 布 式 表 示 上 的 线性 分 类 器 不 能 向 每 个 相 邻 区 域 分 配 不 同 的 类 别 标识 ; 甚至 深度 线性 阀 值 网 络 
的 VC 维 只 有 O(wlogw) (其 中 w 是 权重 数目 (Sontag, 1998)。 强 表示 层 和 弱 分 类 带 层 的 组 合 
是 一 个 强 正 则 化 项 。 试 图 学 习 “ 人 ”和 “ 非 人 ”概念 的 分 类 器 不 需要 给 表示 为 “ 戴 眼 镜 的 女人 ”和 





























“没有 戴 眼 镜 的 男人 ”的 输入 分 配 不 同 的 类 别 。 容 量 限 制 鼓 
以 线性 可 分 的 方式 学 习 表 示 这 些 类 别 。 















































励 每 个 分 类 器 关注 少数 几 个 hi, 鼓励 h 


e 基于 n-gram 的 语言 或 翻译 模型 : 根据 后 级 的 树 结构 划 分 上 下 文集 合 (符号 序 
Bl), 例如， 一 个 叶 节 点 可 能 对 应 于 最 后 两 个 单词 wi 和 wz。 树 上 的 每 个 叶 节 
点 分 别 估计 单独 的 参数 ( 有 些 共享 也 是 可 能 的 )。 


对 于 部 分 非 分 布 式 算法 而 言 ， 有 些 输出 并 非 是 恒定 的 ， 而 是 在 相 邻 区 域 之 间 内 
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图 15.8: 最 近邻 算法 如 何 将 输入 空间 分 成 不 同 区 域 的 图 示 。 最 近邻 算法 是 一 个 基于 非 分 布 式 表 示 的 
学 习 算 法 的 示例 。 不 同 的 非 分 布 式 算法 可 以 具有 不 同 的 几何 形状 ， 但 是 它们 通常 将 输入 空间 分 成 
区 域 ,每 个 区 域 具有 不 同 的 参数 。 非 分 布 式 方法 的 优点 是 ,给 定 足 够 的 参数 ， 它 能 够 拟 合 一 个 训练 
集 ， 而 不 需要 复杂 的 优化 算法 。 因 为 它 直接 为 每 个 区 域 独 立地 设置 不 同 的 参数 。 缺 点 是 ， 非 分 布 式 
表示 的 模型 只 能 通过 平滑 先 验 来 局 部 地 泛 化 ， 因 此 学 习 波 峰 波 谷 多 于 样本 的 复杂 函数 时 ， 该 方法 
是 不 可 行 的 。 和 分 布 式 表示 的 对 比 ， 可 以 参照 图 15.7 。 













































































ffi, BBC (或 样本 ) 的 数量 和 它们 能 够 定义 区 域 的 数量 之 间 仍 保持 线性 关系 。 

将 分 布 式 表示 和 符号 表示 区 分 开 来 的 一 个 重要 概念 是 ， 由 不 同 概念 之 间 的 共享 
属性 而 产生 的 泛 化 。 作 为 纯 符号 ,，“ 猫 * 和 “ 狗 ” 之 间 的 距离 和 任意 其 他 两 种 符号 的 
距离 一 样 。 然 而 ， 如 果 将 它们 与 有 意义 的 分 布 式 表示 相关 联 ， 那 么 关于 猫 的 很 多 特 
点 可 以 推广 到 狗 ， 反 之 亦 然 。 例 如 ， 我 们 的 分 布 式 表示 可 能 会 包含 诸如 “具有 皮毛 ” 
或 “ 腿 的 数目 ”这 类 在 “ 猫 ” 和 “ 狗 ” 的 嵌入 上 具有 相同 值 的 项 。 正 如 第 12.4.2 节 所 
讨论 的 ， 作 用 于 单词 分 布 式 表示 的 神经 语言 模型 比 其 他 直接 对 单词 one-hot 表示 进 
行 操作 的 模型 泛 化 得 更 好 。 分 布 式 表 示 具 有 丰富 的 相似 性 空间 ， 语 义 上 相近 的 概念 
(或 输入 ) 在 距离 上 接近 ， 这 是 纯粹 的 符号 表示 所 缺少 的 特点 。 

在 学 习 算 法 中 使 用 分 布 式 表 示 何 时 以 及 为 什么 具有 统计 优势 ” 当 一 个 明显 复杂 
的 结构 可 以 用 较 少 参数 紧 致 地 表示 时 , 分 布 式 表 示 具 有 统计 上 的 优点 。 一 些 传统 的 非 
分 布 式 学 习 算 法 仅仅 在 平滑 假设 的 情况 下 能 够 泛 化 ， 也 就 是 说 如 果 uwo, 那么 学 习 
到 的 目标 函数 f 通常 具有 f(u) > f(v) 的 性 质 。 有 许多 方法 来 形式 化 这 样 一 个 假设 ， 
但 其 结果 是 如 果 我 们 有 一 个 样本 (x,y), FERMIÉ f(x) © y, 那么 我 们 可 以 选取 
一 个 估计 f 近似 地 满足 这 些 限制 ,并且 当 我 们 移动 到 附近 的 输入 x 十 e 时 ，f 尽 可 能 
少 地 发 生 改变 。 显 然 这 个 假设 是 非常 有 用 的 ， 但 是 它 会 遭受 维 数 灾 难 : 学 习 出 一 个 
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能 够 在 很 多 不 同 区 域 上 增加 或 减少 很 多 次 的 目标 函数 !, 我 们 可 能 需要 至 少 和 可 区 分 
区 域 数量 一 样 多 的 样本 。 我 们 可 以 将 每 一 个 区 域 视 为 一 个 类 别 或 符号 : 通过 让 每 个 
符号 (或 区 域 ) 具有 单独 的 自由 度 ， 我 们 可 以 学 习 出 从 符号 映射 到 值 的 任意 解码 器 。 
然而 ， 这 不 能 推广 到 新 区 域 的 新 符号 上 。 

如 果 我 们 幸运 的 话 ， 除 了 平滑 之 外 ,目标 函 数 可 能 还 有 一 些 其 他 规律 。 例 如 ,有 具 
有 最 大 池 化 的 卷 积 网 络 可 以 在 不 考虑 对 象 在 图 像 中 位 置 ( 即使 对 象 的 空间 变换 不 对 
应 输入 空间 的 平滑 变换 ) 的 情况 下 识别 出 对 象 。 

让 我 们 检查 分 布 式 表 示 学 习 算法 的 一 个 特殊 情况 ， 它 通过 对 输入 的 线性 函数 进 
行 阀 值 处 理 来 提取 二 元 特征 。 该 表示 中 的 每 个 二 元 特征 将 及 ”分 成 一 对 半空 间 ， 如 
图 15.7 所 示 。n 个 相应 半空 间 的 指数 级 数量 的 交集 确定 了 该 分 布 式 表示 学 习 带 能 够 
区 分 多 少 区 域 。 空 间 IR? 中 的 n 个 超 平面 的 排列 组 合 能 够 生成 多 少 区 间 ? 通过 应 用 
关于 超 平面 交集 的 一 般 结 果 (Zaslavsky, 1975)， 我 们 发 现 (Pascanu et al., 2014b) 这 
个 二 元 特征 表示 能 够 区 分 的 空间 数量 是 


3 C) = O(n"). (15.4) 


zo M 











因此 ， 我 们 会 发 现 关 于 输入 大 小 呈 指 数 级 增长 ， 关 于 隐藏 单元 的 数量 呈 多 项 式 级 增 
长 。 

这 提供 了 分 布 式 表 示 泛 化 能 力 的 一 种 几何 解释 : O(nd) 个 参数 ( 空间 R PAY n 
个 线性 阀 值 特征 ) 能 够 明确 表示 输入 空间 中 On) 个 不 同 区 域 。 如 果 我 们 没有 对 数 
据 做 任何 假设 ， 并 且 每 个 区 域 使 用 唯一 的 符号 来 表示 ， 每 个 符号 使 用 单独 的 参数 去 
识别 RY 中 的 对 应 区 域 ， 那 么 指定 O(n?) 个 区 域 需要 O(n) 个 样本 。 更 一 般 地 ， 分 
布 式 表 示 的 优势 还 可 以 体现 在 我 们 对 分 布 式 表示 中 的 每 个 特征 使 用 非 线性 的 、 可 能 
连续 的 特征 提取 融 ， 而 不 是 线性 阀 值 单 元 的 情况 。 在 这 种 情况 下 ， 如 果 具 及 个 参 
数 的 参数 变换 可 以 学 习 输 入 空间 中 的 7 个 区 域 (有 之 7)， 并 且 如 果 学 习 这 样 的 表示 
有 助 于 关注 的 任务 那么 这 种 方式 会 比 非 分 布 式 情景 ( 我们 需要 Olr) 个 样本 来 获得 
相同 的 特征 ， 将 输入 空间 相关 联 地 划分 成 7 个 区 域 。) 泛 化 得 更 好 。 使 用 较 少 的 参数 
来 表示 模型 意味 着 我 们 只 需 拟 合 较 少 的 参数 ， 因 此 只 需要 更 少 的 训练 样本 去 获得 良 
好 的 泛 化 。 

男 一 个 解释 基于 分 布 式 表示 的 模型 泛 化 能 力 更 好 的 说 法 是 ， 尺 管 能 够 明确 地 编 


:一般 来 说 ， 我 们 可 能 会 想 要 学 习 一 个 函数 ， 这 个 函数 在 指数 级 数量 区 域 的 表现 都 是 不 同 的 : 在 q- 维 空间 中 ,为 了 
区 分 每 一 维 ， 至 少 有 两 个 不 同 的 值 。 我 们 想 要 函数 f 区 分 这 2? 个 不 同 的 区 域 ， 需 要 O24) 量 级 的 训练 样本 
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码 这 么 多 不 同 的 区 域 , 但 它们 的 容量 仍然 是 很 有 限 的 。 例 如 ， 线 性 阀 值 单元 神经 网 
络 的 VC 维 仅 为 O(wlogw)， 其 中 w 是 权重 的 数目 (Sontag, 1998)。 这 种 限制 出 现 
的 原因 是 ， 虽 然 我 们 可 以 为 表示 空间 分 配 非常 多 的 唯一 码 ， 但 是 我 们 不 能 完全 使 用 
所 有 的 码 空间 ， 也 不 能 使 用 线性 分 类 器 学 习 出 从 表示 空间 h 到 输出 y 的 任意 函数 映 
射 。 因 此 使 用 与 线性 分 类 器 相 结合 的 分 布 式 表示 传达 了 一 种 先 验 信 念 ， 待 识别 的 类 
在 h 代表 的 潜在 因果 因子 的 孔 数 下 是 线性 可 分 的 。 我 们 通常 想 要 学 习 类 别 ， 例 如 所 
有 绿色 对 象 的 图 像 集合 ,或 是 所 有 汽车 图 像 集合 ， 但 不 会 是 需要 非 线 性 KOR 逻辑 
的 类 别 。 例 如 ， 我 们 通常 不 会 将 数据 划分 成 所 有 红色 汽车 和 绿色 卡车 作为 一 个 集合 ， 
所 有 绿色 汽车 和 红色 卡车 作为 另 一 个 集合 。 

到 目前 为 止 讨 论 的 想法 都 是 抽象 的 ， 但 是 它们 可 以 通过 实验 验证 。Zhou et al. 
(2015) 发 现 ， 在 ImageNet 和 Places 基准 数据 集 上 训练 的 深度 卷 积 网 络 中 的 隐藏 单 
元 学 成 的 特征 通常 是 可 以 解释 的 , 对 应 人 类 自然 分 配 的 标签 。 在 实践 中 , 隐藏 单元 并 
不 能 总 是 学 习 出 具有 简单 语言 学 名 称 的 事物 ， 但 有 趣 的 是 ， 这 些 事物 会 在 那些 最 好 
的 计算 机 视觉 深度 网 络 的 顶层 附近 出 现 。 这 些 特征 的 共同 之 处 在 于 ,我 们 可 以 设想 
学 习 其 中 的 每 个 特征 不 需要 知道 所 有 其 他 特征 的 所 有 配置 。Radford et al. (2015) 发 
现 生成 模型 可 以 学 习 人 上 脸 图 像 的 表示 ， 在 表示 空间 中 的 不 同方 向 捕获 不 同 的 潜在 变 
差 因素 。 图 15.9 展示 表示 空间 中 的 一 个 方向 对 应 着 该 人 是 男性 还 是 女性 ， 而 另 一 个 
方向 对 应 着 该 人 是 和 否 戴 着 眼镜 。 这 些 特 征 都 是 自动 发 现 的 ， 而 非 先 验 固 定 的 。 我 们 
没有 必要 为 隐藏 单元 分 类 器 提供 标签 : 只 要 该 任务 需要 这 样 的 特征 ， 梯 度 下 降 就 能 
在 感 兴趣 的 目标 函数 上 自然 地 学 习 出 语义 上 有 趣 的 特征 。 我 们 可 以 学 习 出 男性 和 女 
性 之 间 的 区 别 ， 或 者 是 眼镜 的 存在 与 否 ， 而 不 必 通 过 涵盖 所 有 这 些 值 组 合 的 样本 来 
表征 其 他 n 一 工 个 特征 的 所 有 配置 。 这 种 形式 的 统计 可 分 离 性 质 能 够 泛 化 到 训练 期 
间 从 未 见 过 的 新 特征 上 。 
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15.9: 生成 模型 学 到 了 分 布 式 表示 ， 能 够 从 戴 眼 镜 的 概念 中 区 分 性 别 的 概念 。 如 果 我 们 从 一 个 
戴 眼镜 的 男人 的 概念 表示 向 量 开 始 ， 然 后 减 去 一 个 没 戴 眼镜 的 男人 的 概念 表示 向 量 ， 最 后 加 上 一 
个 没 戴 眼镜 的 女人 的 概念 表示 向 量 ， 那 么 我 们 会 得 到 一 个 戴 眼镜 的 女人 的 概念 表示 向 量 。 生 成 模 
型 将 所 有 这 些 表 示 向 量 正确 地 解码 为 可 被 识别 为 正确 类 别 的 图 像 。 图 片 转载 许可 自 Radford et al. 
(2015)。 




















15.5 “得 益 于 深度 的 指数 增益 


我 们 已 经 在 第 6.4.1 节 中 看 到 ， 多 层 感知 机 是 万 能 近似 器 ， 相 比 于 浅 层 网 络 ， 一 
些 函 数 能 够 用 指数 级 小 的 深度 网 络 表示 。 缩 小 模型 规模 能 够 提高 统计 效率 。 在 本 节 
中 ， 我 们 描述 如 何 将 类 似 结果 更 一 般 地 应 用 于 其 他 具有 分 布 式 隐藏 表示 的 模型 。 

在 第 15.4 节 中 ， 我 们 看 到 了 一 个 生成 模型 的 示例 ， 能 够 学 习 人 脸 图 像 的 潜在 解 
释 因 子 ， 包 括 性 别 以 及 是 否 佩 戴 眼镜 。 完 成 这 个 任务 的 生成 模型 是 基于 一 个 深度 神 
经 网 络 的 。 浅 层 网 络 例如 线性 网 络 不 能 学 习 出 这 些 抽象 解释 因子 和 图 像 像 素 之 间 的 
复杂 关系 。 在 这 个 任务 和 其 他 AI 任务 中 ， 这 些 因 子 几乎 彼此 独立 地 被 抽取 ， 但 仍 
然 对 应 到 有 意义 输入 的 因素 ,很 有 可 能 是 高 度 抽 象 的 ， 并且 和 输入 呈 高 度 非 线 性 的 
关系 。 我 们 认为 这 需要 深度 分 布 式 表示 ， 需 要 许多 非 线 性 组 合 来 获得 较 高 级 的 特征 
(被 视 为 输入 的 函数 ) 或 因子 ( 被 视 为 生成 原因 )。 

在 许多 不 同情 景 中 已 经 证 明 , 非 线 性 和 重用 特征 层次 结构 的 组 合 来 组 织 计 算 , 可 
以 使 分 布 式 表示 获得 指数 级 加 速 之 外 ， 还 可 以 获得 统计 效率 的 指数 级 提升 。 许 多 种 
类 的 只 有 一 个 隐藏 层 的 网 络 ( 例如 ， 具 有 人 饱和 非 线 性 ， 布 尔 门 ， 和 / 积 , 或 RBF 单 
元 的 网 络 ) 都 可 以 被 视 为 万 能 近似 器 。 在 给 定 足够 多 隐藏 单元 的 情况 下 ， 这 个 模型 
族 是 一 个 万 能 近似 絮 ， 可 以 在 任意 非 零 允 错 级 别 近 似 一 大 类 函数 ( 包括 所 有 连续 函 
数 )。 然 而 ， 隐 藏 单 元 所 需 的 数量 可 能 会 非常 大 。 关 于 深层 架构 表达 能 力 的 理论 结果 
表明 ， 有 些 函 数 族 可 以 高 效 地 通过 深度 k 层 的 网 络 架构 表示 ， 但 是 深度 不 够 〈 深度 
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为 2 或 上 一 1) 时 会 需要 指数 级 (相对 于 输入 大 小 而 言 ) 的 隐藏 单 元 。 

在 第 6.4.1 节 中 ， 我们 看 到 确定 性 前 馈 网 络 是 也 数 的 万 能 近似 器 。 许 多 具有 单 
个 隐藏 层 ( 潜 变 量 ) 的 结构 化 概率 模型 ( 包括 受 限 玻 尔 兹 曼 机 , 深度 信念 网 络 ) 是 概 
率 分 布 的 万 能 近似 絮 (Le Roux and Bengio, 2007; Montúfar and Ay, 2011; Montufar 
et al., 2014; Krause et al., 2013)。 

在 第 6.4.1 市 中 ,我 们 看 到 足够 深 的 前 馈 网 络 会 比 深度 不 够 的 网 络 具 有 指数 级 优 
势 。 这 样 的 结果 也 能 从 诸如 概率 模型 的 其 他 模型 中 获得 。 和 - 积 网 络 ( sum-product 
network, SPN ) (Poon and Domingos, 2011) 是 这 样 的 一 种 概率 模型 。 这 些 模型 使 
用 多 项 式 回 路 来 计算 一 组 随机 变量 的 概率 分 布 。Delalleau and Bengio (2011) 表明 存 
在 一 种 概率 分 布 , 对 SPN 的 最 小 深度 有 要 求 ， 以 避免 模型 规模 呈 指 数 级 增长 。 后 来 ， 
Martens and Medabalimi (2014) 表明 ,任意 两 个 有 限 深 度 的 SPN 之 间 都 会 存在 显 
著 差 异 ， 并 且 一 些 使 SPN 易于 处 理 的 约束 可 能 会 限制 其 表示 能 力 。 

另 一 个 有 趣 的 进展 是 ， 一 系列 和 卷 积 网 络 相关 的 深度 回路 族 表达 能 力 的 理论 结 
果 ， 即 使 让 浅 度 回 路 只 去 近似 深度 回路 计算 的 函数 ， 也 能 突出 反映 深度 回路 的 指数 
级 优势 (Cohen et al., 2015)。 相 比 之 下 ， 以 前 的 理论 工作 只 研究 了 浅 度 回路 必须 精 
确 复制 特定 函数 的 情况 。 
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我 们 回 到 最 初 的 问题 之 一 来 结束 本 章 : 什么 原因 能 够 使 一 个 表示 比 为 一 个 表示 
更 好 ? 首先 在 第 15.3 节 中 介绍 的 一 个 答案 是 ， 一 个 理想 的 表示 能 够 区 分 生成 数据 变 
化 的 潜在 因果 因子 ,特别 是 那些 与 我 们 的 应 用 相关 的 因素 。 表 示 学 习 的 大 多 数 策略 
都 会 引 和 人 一 些 有 助 于 学 习 潜在 变 差 因素 的 线索 。 这 些 线索 可 以 帮助 学 习 器 将 这 些 观 
察 到 的 因素 与 其 他 因素 分 开 。 监 督学 习 提 供 了 非常 强 的 线索 : 每 个 观察 向 量 z 的 标 
签 y， 它 通常 直接 指定 了 至 少 一 个 变 差 因 素 。 更 一 般 地 ,为 了 利用 丰富 的 未 标注 数 
据 ， 表 示 学 习 会 使 用 关于 潜在 因素 的 其 他 不 太 直 接 的 提示 。 这 些 提示 包含 一 些 我 们 
(学 习 算 法 的 设计 者 ) 为 了 引导 学 习 带 而 强加 的 隐 式 先 验 信息 。 诸 如 没有 免费 午餐 定 
理 的 这 些 结果 表明 ,正则 化 策略 对 于 获得 良好 泛 化 是 很 有 必要 的 。 当 不 可 能 找到 一 
个 普遍 良好 的 正则 化 策略 时 ,深度 学 习 的 一 个 目标 是 找到 一 套 相 当 通 用 的 正则 化 策 
略 ， 使 其 能 够 适用 于 各 种 各 样 的 AI 任务 〈 类 似 于 人 和 动物 能 够 解决 的 任务 )。 

在 此 ， 我 们 提供 了 一 些 通用 正则 化 策略 的 列表 。 该 列表 显然 是 不 详尽 的 ， 但 是 
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给 出 了 一 些 学 习 算法 是 如 何 发 现 对 应 潜在 因素 的 特征 的 具体 示例 。 该 列表 在 Bengio 
et al. (2013e) 的 第 3.1 节 中 提出 ， 这 里 进行 了 部 分 拓展 。 


平滑 : 假设 对 于 单位 d 和 小 量 e。 有 f(z 十 eq) = f(a). MAIR ET aA 
训练 样本 泛 化 到 输入 空间 中 附近 的 点 。 许 多 机 顺 学 习 算 法 都 利用 了 这 个 想法 ， 
但 它 不 能 克服 维 数 灾难 难题 。 


线性 : 很 多 学 习 算 法 假定 一 些 变量 之 间 的 关系 是 线性 的 。 这 使 得 算法 能 够 预测 
远离 观测 数据 的 点 ， 但 有 时 可 能 会 导致 一 些 极端 的 预测 。 大 多 数 简单 的 学 习 
算法 不 会 做 平滑 假设 ， 而 会 做 线性 假设 。 这 些 假设 实际 上 是 不 同 的 ， 具 有 很 
大 权重 的 线性 函数 在 高 维 空间 中 可 能 不 是 非常 平滑 的 。 参 看 Goodfellow et al. 
(2014b) 了 解 关 于 线性 假设 局 限 性 的 进一步 讨论 。 


多 个 解释 因子 : 许多 表示 学 习 算 法 受 以 下 假设 的 启发 ， 数 据 是 由 多 个 潜在 解释 
因子 生成 的 , 并 且 给 定 每 一 个 因子 的 状态 , 大 多 数 任务 都 能 轻易 解决 。 第 15.3 节 
描述 了 这 种 观点 如 何 通 过 表示 学 习 来 启发 半 监 督学 习 的 。 学 习 p(x) 的 结构 要 
求学 习 出 一 些 对 建 模 p(y | a) 同样 有 用 的 特征 ， 因 为 它们 都 涉及 到 相同 的 洪 
在 解释 因子 。 第 15.4 节 介绍 了 这 种 观点 如 何 启 发 分 布 式 表示 的 使 用 ， 表 示 空 间 
中 分 离 的 方向 对 应 着 分 离 的 变 差 因素 。 


因果 因子 : 该 模型 认为 学 成 表示 所 描述 的 变 差 因 素 是 观察 数据 z 的 成 因 ， 而 
并 非 反 过 来 。 正 如 第 15.3 节 中 讨论 的 ， 这 对 于 半 监 督学 习 是 有 利 的 ， 当 潜在 成 
因 上 的 分 布 发 生 改变 ,或 者 我 们 应 用 模型 到 一 个 新 的 任务 上 时 ， 学 成 的 模型 都 
ZEME, 


深度 ， 或 者 解释 因子 的 层次 组 织 : 高 级 抽象 概念 能 够 通过 将 简单 概念 层次 化 来 
定义 。 从 男 一 个 角度 来 看 ， 深 度 架 构 表达 了 我 们 认为 任务 应 该 由 多 个 程序 步 台 
完成 的 观念 ， 其 中 每 一 个 步骤 回溯 到 先前 步 又 处 理 之 后 的 输出 。 


任务 间 共 享 因素 : 当 多 个 对 应 到 不 同 变量 y; 的 任务 共享 相同 的 输入 x 时 , 或 
者 当 每 个 任务 关联 到 全 局 输入 x 的 子 集 或 者 函数 FO (x) 时 ， 我 们 会 假设 每 个 
变量 yi 关联 到 来 自 相 关 因 素 h 公共 池 的 不 同 子 集 。 因 为 这 些 子 集 有 重修 ， 所 
以 通过 共享 的 中 间 表 示 Ph | x) 来 学 习 所 有 的 P(y; | x) 能 够 使 任务 间 共 享 统 
计 强 度 。 


流 形 : 概率 质量 集中 ， 并 且 集 中 区 域 是 局 部 连通 的 ， 且 占据 很 小 的 体积 。 在 连 
续 情 况 下 ， 这 些 区 域 可 以 用 比 数据 所 在 原始 空间 低 很 多 维 的 低 维 流 形 来 近似 。 
































ww ai bbt.com DODDDDODOD 


0 
15.6 提供 发 现 潜在 原因 的 线索 473 


很 多 机 器 学 习 算 法 只 在 这 些 流 形 上 有 效 (Goodfellow et al., 2014b)。 一 些 机 央 
学 习 算法 ， 特 别 是 自 编 码 器 ， 会 试图 显 式 地 学 习 流 形 的 结构 。 


自然 聚 类 : 很 多 机 顺 学 习 算 法 假设 输入 空间 中 每 个 连通 流 形 可 以 被 分 配 一 个 单 
独 的 类 。 数 据 分 布 在 许多 个 不 连通 的 流 形 上 ， 但 相同 流 形 上 数据 的 类 别 是 相同 
的 。 这 个 假设 激励 了 各 种 学 习 算法 ,包括 正切 传播 、 双 反 向 传播 、 流 形 正切 分 
类 器 和 对 抗 训练 。 


时 间 和 空间 相干 性 : 慢 特征 分 析 和 相关 的 算法 假设 ， 最 重要 的 解释 因子 随时 间 
变化 很 缓慢 ， 或 者 至 少 假 设 预测 真实 的 潜在 解释 因子 比 预测 诸如 像素 值 这 类 原 
台 观 察 会 更 容易 些 。 读 考 可 以 参考 第 13.3 节 ， 进 一 步 了 解 这 个 方法 。 


Fir BE: 假设 大 部 分 特征 和 大 部 分 输入 不 相关 ， 如 在 表示 猫 的 图 像 时 ， 没 有 必 
要 使 用 象 鼻 的 特征 。 因 此 ， 我 们 可 以 强加 一 个 先 验 ， 任 何 可 以 解释 为 “存在 ” 
或 “不 存在 ”的 特征 在 大 多 数 时 间 都 是 不 存在 的 。 


简化 因子 依赖 ， 在 良好 的 高 级 表示 中 ， 因 子 会 通过 简单 的 依赖 相互 关联 。 最 简 
单 的 可 能 是 边缘 独立 ， 即 P(h) = IT P(ED)。 但 是 线性 依赖 或 浅 层 自 编码 器 所 
能 表示 的 依赖 关系 也 是 合理 的 假设 。 这 可 以 从 许多 物理 定律 中 看 出 来 ， 并 且 候 
设 在 学 成 表示 的 顶层 插入 线性 预测 器 或 分 解 的 先 验 。 





表示 学 习 的 概念 将 许多 深度 学 习 形式 联系 在 了 一 起 。 前 馈 网 络 和 循环 网 络 ， 自 
编码 顺和 座 度 概率 模型 都 在 学 习 和 使 用 表示 。 学 习 最 佳 表示 仍然 是 一 个 令 人 兴奋 的 
研究 方向 。 
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深度 学 习 为 研究 者 们 提供 了 许多 建 模 方式 ， 用 以 设计 以 及 描述 算法 。 其 中 一 
种 形式 是 结构 化 概率 模型 ( structured probabilistic model) 的 思想 。 我 们 曾经 在 
第 3.14 节 中 简要 讨论 过 结构 化 概率 模型 。 此 前 简要 的 介绍 已 经 足够 使 我 们 充分 了 解 
如 何 使 用 结构 化 概率 模型 作为 描述 第 二 部 分 中 某 些 算法 的 语言 。 现 在 在 第 三 部 分 ， 
我 们 可 以 看 到 结构 化 概率 模型 是 许多 深度 学 习 重 要 研究 方向 的 关键 组 成 部 分 。 作 为 
讨论 这 些 研 究 方向 的 预备 知识 ， 本 章 将 更 加 详细 地 描述 结构 化 概率 模型 。 本 章 内 容 
是 自 洽 的 ， 所 以 在 阅读 本 章 之 前 读者 不 需要 回顾 之 前 的 介绍 。 

结构 化 概率 模型 使 用 图 来 描述 概率 分 布 中 随机 变量 之 间 的 直接 相互 作用 ， 从 
而 描述 一 个 概率 分 布 。 在 这 里 我 们 使 用 了 图 论 (一 系列 结 点 通过 一 系列 边 来 连接 ) 
中 “图 ”的 概念 ， 由 于 模型 结构 是 由 图 定义 的 ， 所 以 这 些 模 型 也 通常 被 称 为 图 模型 
( graphical model ). 

图 模型 的 研究 社 群 是 巨大 的 , J HARKER, VARRE EAE. 在 本 
章 中 ， 我 们 将 介绍 图 模型 中 几 个 核心 方法 的 基本 背景 ， 并 且 重 点 描述 已 被 证 明 对 深 
度 学 习 社 群 最 有 用 的 观点 。 如 果 你 已 经 熟知 图 模型 ， 那 么 你 可 以 跳 过 本 章 的 绝 大 部 
分 。 然 而 ， 我 们 相信 和 即使 是 资深 的 图 模型 方向 的 研究 者 也 会 从 本 章 的 最 后 一 节 中 获 
益 菲 浅 ， 详 见 第 16.7 节 ， 其 中 我 们 强调 了 在 深度 学 习 算 法 中 使 用 图 模型 的 独特 方式 。 
相 比 于 其 他 图 模型 研究 领域 的 是 ， 深 度 学 习 的 研究 者 们 通常 会 使 用 完全 不 同 的 模型 
结构 、 学 习 算 法 和 推断 过 程 。 在 本 章 中 ， 我 们 将 指明 这 种 区 别 并 解释 其 中 的 原因 。 

我 们 首先 介绍 了 构建 大 规模 概率 模型 时 面临 的 挑战 。 之后, 我 们 介绍 如 何 使 用 一 
个 图 来 描述 概率 分 布 的 结构 。 尽 管 这 个 方法 能 够 帮助 我 们 解决 许多 挑战 和 问题 ， 它 
本 身 仍 有 很 多 缺陷 。 图 模型 中 的 一 个 主要 难点 就 是 判断 哪些 变量 之 间 存 在 直接 的 相 
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互 作用 关系 , 也 就 是 对 于 给 定 的 问题 哪 一 种 图 结构 是 最 适合 的 。 在 第 16.5 节 中 , 我 们 
通过 了 解 (RA (dependency ), 简要 概括 了 解决 这 个 难点 的 两 种 方法 。 最 后 ， 作 为 本 
章 的 收尾 ,我们 在 第 16.7 节 中 讨论 深度 学 习 人 研究 者 使 用 图 模型 特定 方式 的 独特 之 处 。 


16.1 ” 非 结 构 化 建 模 的 挑战 


深度 学 习 的 目标 是 使 得 机 天 学习 能 够 解决 许多 人 工 智能 中 或 需 解决 的 挑战 。 这 
意味 着 它们 能 够 理解 具有 丰富 结构 的 高 维 数据 。 举 个 例子 ， 我 们 和 希望 AI 的 算法 能 
够 理解 自然 图 片 !， 表 示 语 音 的 声音 信号 和 包含 许多 词 和 标点 的 文档 。 

分 类 问题 可 以 把 这 样 一 个 来 自 高 维 分 布 的 数据 作为 输入 ， 然 后 使 用 一 个 类 别 的 
标签 来 概括 它 一 一 这 个 标签 可 以 是 照片 中 是 什么 物品 ， 一 段 语音 中 说 的 是 哪个 单词 ， 
也 可 以 是 一 段 文档 描述 的 是 哪个 话题 。 这 个 分 类 过 程 丢 弃 了 输入 数据 中 的 大 部 分 信 
息 ， 然 后 产生 单个 值 的 输出 (或 者 是 关于 单个 输出 值 的 概率 分 布 )。 这 个 分 类 顺 通 常 
可 以 忽略 输入 数据 的 很 多 部 分 。 例 如 ， 当 我 们 识别 一 张 照 请 中 的 一 个 物体 时 ， 我 们 
通常 可 以 忽略 图 片 的 背景 。 

我 们 也 可 以 使 用 概率 模型 完成 许多 其 他 的 任务 。 这 些 任务 通常 相 比 于 分 类 成 本 
更 高 。 其 中 的 一 些 任务 需要 产生 多 个 输出 。 大 部 分 任务 需要 对 输入 数据 整个 结构 的 
完整 理解 ， 所 以 并 不 能 舍弃 数据 的 一 部 分 。 这 些 任 务 包括 以 下 几 个 : 





。 估计 密度 函数 : 给 定 一 个 输入 zz， 机 器 学 习 系 统 返 回 一 个 对 数据 生成 分 布 的 真 
实 密度 函数 p(z) 的 估计 。 这 只 需要 一 个 输出 , 但 它 需要 完全 理解 整个 输入 。 即 
使 向 量 中 只 有 一 个 元 素 不 太 正常 ， 系 统 也 会 给 它 赋 予 很 低 的 概率 。 


AR: 给 定 一 个 受 损 的 或 者 观察 有 误 的 输入 数据 过 ， 机 天 学 习 系统 返回 一 个 对 
原始 的 真实 z 的 估计 。 举 个 例子 ， 有 时 候 机 顺 学 习 系统 需 要 从 一 张 老 相片 中 去 
除 灰 全 或 者 抓 痕 。 这 个 系统 会 产生 多 个 输出 值 ( 对 应 着 佑 计 的 干净 样本 z 的 每 
一 个 元 素 ),， 并 且 需 要 我 们 有 一 个 对 输入 的 整体 理解 ( 因为 即使 只 有 一 个 损坏 
的 区 域 ， 仍 然 会 显示 最 终 佑 计 被 损坏 )。 


缺失 值 的 填补 : 给 定 z 的 某 些 元 素 作为 观察 值 ， 模 型 被 要 求 返回 一 个 s 一 些 或 
者 全 部 未 观察 值 的 估计 或 者 概率 分 布 。 这 个 模型 返回 的 也 是 多 个 输出 。 由 于 这 
个 模型 需要 恢复 z 的 每 一 个 元 素 ， 所 以 它 必须 理解 整个 输入 。 

然 图 片 指 的 是 能 够 在 正常 的 环境 下 被 照相 机 拍摄 的 图 片 ， 不 同 于 合成 的 图 片 ， 或 者 一 个 网 页 的 堆 图 等 等 。 
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476 第 十 六 章 深度 学 习 中 的 结构 化 概率 模型 
o 采样 : 模型 从 分 布 p(z) 中 抽取 新 的 样本 。 其 应 用 包括 语音 合成 ， 即 产生 一 个 
听 起 来 很 像 人 说 话 的 声音 。 这 个 模型 也 需要 多 个 输出 以 及 对 输入 整体 的 良好 建 
模 。 即 使 样本 只 有 一 个 从 错误 分 布 中 产生 的 元 素 ， 那 么 采样 的 过 程 也 是 错误 的 。 


图 16.1 中 描述 了 一 个 使 用 较 小 的 自然 图 片 的 采样 任务 。 


， 1 a a 


i a. 
J 








图 16.1: 自然 图 片 的 概率 建 模 。( 上 ) CIFAR-10 数据 集 (Krizhevsky and Hinton, 2009) 中 的 
32 x 32 像素 的 样 例 图 片 。( 下 ) 从 这 个 数据 集 上 训练 的 结构 化 概率 模型 中 抽出 的 样本 。 每 一 个 样本 
都 出 现在 与 其 欧式 距离 最 近 的 训练 样本 的 格 点 中 。 这 种 比较 使 得 我 们 发 现 这 个 模型 确实 能 够 生成 
新 的 图 片 ,而 不 是 记 住 训练 样本 。 为 了 方便 展示 ,两 个 集合 的 图 片 都 经 过 了 微调 。 图 片 经 Courville 
et al. (2011a) 许可 转载 。 
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对 上 千 甚 至 是 上 百 万 随机 变量 的 分 布 建 模 ， 无 论 从 计算 上 还 是 从 统计 意义 上 说 ， 
都 是 一 个 极 具 挑战 性 的 任务 。 假 设 我 们 只 想 对 二 值 的 随机 变量 建 模 。 这 是 一 个 最 简 
单 的 例子 ， 但 是 我 们 仍然 无 能 为 力 。 对 一 个 只 有 32 x 32 像素 的 彩色 (RGB) 图 片 
来 说 ,存在 2°°? 种 可 能 的 二 值 图 片 。 这 个 数量 已 经 超过 了 108"% ， 比 宇宙 中 的 原子 
总 数 还 要 多 。 

通常 意义 上 讲 ， 如 果 我 们 希望 对 一 个 包含 ”个 离散 变量 并 且 每 个 变量 都 能 取 k 
个 值 的 z 的 分 布 建 模 ， 那么 最 简单 的 表示 Pe) 的 方法 需要 存储 一 个 可 以 查询 的 表 
格 。 这 个 表格 记录 了 每 一 种 可 能 值 的 概率 ， 则 需要 k 个 参数 。 

基于 下 述 几 个 原因 ， 这 种 方式 是 不 可 行 的 : 








e 内 存 : 存储 参数 的 开销 。 除了 极 小 的 n 和 的 值 ， 用 表格 的 形式 来 表示 这 样 
一 个 分 布 需 要 太 多 的 存储 空间 。 


统计 的 高 效 性 : 当 模 型 中 的 参数 个 数 增加 时 ， 使 用 统计 估计 器 估计 这 些 参数 所 
需要 的 训练 数据 数量 也 需要 相应 地 增加 。 因 为 基于 查 表 的 模型 拥有 天 文 数 字 级 
别 的 参数 ， 为 了 准确 地 拟 合 ， 相 应 的 训练 集 的 大 小 也 是 相同 级 别 的 。 任 何 这 样 
的 模型 都 会 导致 严重 的 过 拟 合 ， 除 非 我 们 添加 一 些 额 外 的 假设 来 联系 表格 中 的 
不 同 元 素 (正如 第 12.4.1 节 中 所 举 的 回 退 或 者 平滑 n-gram 模型 )。 


运行 时 间 : 推断 的 开销 。 假设 我 们 需要 完成 这 样 一 个 推断 的 任务 ， 其 中 我 们 需 
要 使 用 联合 分 布 P(x) 来 计算 某 些 其 他 的 分 布 ， 比 如 说 边缘 分 布 P(xi) 或 者 是 
条 件 分 布 P(x2 | x1)o 计算 这 样 的 分 布 需要 对 整个 表格 的 某 些 项 进行 求 和 操作 ， 
因此 这 样 的 操作 的 运行 时 间 和 上 述 高 易 的 内 存 开销 是 一 个 级 别 的 。 


运行 时 间 : 采样 的 开销 。 类 似 的 ， 假 设 我 们 想 要 从 这 样 的 模型 中 采样 。 最 简单 
的 方法 就 是 从 均匀 分 布 中 采样 ，w ~ U(0, 1)， 然 后 把 表格 中 的 元 素 累 加 起 来 ， 
直到 和 大 于 wu， 然后 返回 最 后 一 个 加 上 的 元 素 。 最 差 情况 下 ， 这 个 操作 需要 读 
取 整 个 表格 ， 所 以 和 其 他 操作 一 样 ， 它 也 需要 指数 级 别 的 时 间 。 








基于 表格 操作 的 方法 的 主要 问题 是 我 们 显 式 地 对 每 一 种 可 能 的 变量 子 集 所 产生 
的 每 一 种 可 能 类 型 的 相互 作用 建 模 。 在 实际 问题 中 我 们 遇 到 的 概率 分 布 远 比 这 个 简 
单 。 通 常 ， 许 多 变量 只 是 间接 地 相互 作用 。 

例如 ， 我 们 想 要 对 接力 跑步 比赛 中 一 个 队伍 完成 比赛 的 时 间 进 行 建 模 。 假 设 这 
个 队伍 有 三 名 成 员 : Alice, Bob 和 Carol。 在 比赛 开始 时 ，Alice 拿 着 接力 棒 ， 开 始 
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跑 第 一 段 距 离 。 在 跑 完 她 的 路 程 以 后 ， 她 把 棒 递 给 了 Bob。 然 后 Bob 开始 跑 ， 再 把 
棒 给 Carol, Carol 跑 最 后 一 棒 。 我 们 可 以 用 连续 变量 来 建 模 他 们 每 个 人 完成 的 时 间 。 
因为 Alice 第 一 个 跑 , 所 以 她 的 完成 时 间 并 不 依赖 于 其 他 的 人 。Bob 的 完成 时 间 依 赖 
于 Alice 的 完成 时 间 ， 因 为 Bob 只 能 在 Alice 跑 完 以 后 才能 开始 跑 。 如 果 Alice 跑 得 
ER, 那么 Bob 也 会 完成 得 更 快 。 所 有 其 他 关系 都 可 以 被 类 似 地 推出 。 最 后 ，Carol 
的 完成 时 间 依 赖 于 她 的 两 个 队友 。 如 果 Alice IRIE, IA Bob 也 会 完成 得 更 慢 。 
结果 ，Carol 将 会 更 晚 开 始 跑步 ， 因 此 她 的 完成 时 间 也 更 有 可 能 要 晚 。 然 而 ， 在 给 定 
Bob 完成 时 间 的 情况 下 ，Carol 的 完成 时 间 只 是 间接 地 依赖 于 Alice 的 完成 时 间 。 如 
果 我 们 已 经 知道 了 Bob 的 完成 时 间 ， 知 道 Alice 的 完成 时 间 对 估计 Carol 的 完成 时 
间 并 无 任何 帮助 。 这 意味 着 我 们 可 以 通过 仅仅 两 个 相互 作用 来 建 模 这 个 接力 赛 。 这 
两 个 相互 作用 分 别 是 Alice 的 完成 时 间 对 Bob 的 完成 时 间 的 影响 和 Bob 的 完成 时 间 
对 Carol 的 完成 时 间 的 影响 。 在 这 个 模型 中 ， 我 们 可 以 忽略 第 三 种 间接 的 相互 作用 ， 
即 Alice 的 完成 时 间 对 Carol 的 完成 时 间 的 影响 。 

结构 化 概率 模型 为 随机 变量 之 间 的 直接 作用 提供 了 一 个 正式 的 建 模 框架 。 这 种 
方式 大 大 减少 了 模型 的 参数 个 数 以 致 于 模型 只 需要 更 少 的 数据 来 进行 有 效 的 估计 。 
这 些 更 小 的 模型 大 大 减 小 了 在 模型 存储 、 模 型 推断 以 及 从 模型 中 采样 时 的 计算 开销 。 





16.2 ”使 用 图 描述 模型 结构 


结构 化 概率 模型 使 用 图 ( 在 图 论 中 “ 结 点 ”是 通过 “ 边 ” 来 连接 的 ) 来 表示 随机 
变量 之 间 的 相互 作用 。 每 一 个 结 点 代表 一 个 随机 变量 。 每 一 条 边 代表 一 个 直接 相互 
作用 。 这 些 直 接 相互 作用 隐 含 着 其 他 的 间接 相互 作用 ,但 是 只 有 直接 的 相互 作用 会 
被 显 式 地 建 模 。 

使 用 图 来 描述 概率 分 布 中 相互 作用 的 方法 不 止 一 种 。 在 下 文中 我 们 会 介绍 几 种 
最 为 流行 和 有 用 的 方法 。 图 模型 可 以 被 大 致 分 为 两 类 : 基于 有 向 无 环 图 的 模型 和 基 
于 无 向 图 的 模型 。 
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16.2.1 有 向 模型 


有 向 图 模型 ( directed graphical model) 是 一 种 结构 化 概率 模型 ， 也 被 称 为 信 
念 网 络 (belief network ) 或 者 贝 叶 斯 网 络 (Bayesian network ) ?(Pearl, 1985)。 


之 所 以 命名 为 有 向 图 模型 是 因为 所 有 的 边 都 是 有 方向 的 ， 即 从 一 个 结 点 指向 另 
一 个 结 点 。 这 个 方向 可 以 通过 画 一 个 箭头 来 表示 。 箭 头 所 指 的 方向 表示 了 这 个 随机 
变量 的 概率 分 布 是 由 其 他 变量 的 概率 分 布 所 定义 的 。 画 一 个 从 结 点 a 到 结 点 b AIA 
头 表 示 了 我 们 用 一 个 条 件 分 布 来 定义 b， 而 a 是 作为 这 个 条 件 分 布 符号 右边 的 一 个 
变量 。 换 句 话 说 ，b 的 概率 分 布依 赖 于 a 的 取 值 。 

我 们 继续 第 16.1 节 所 讲 的 接力 赛 的 例子 ,我 们 假设 Alice 的 完成 时 间 为 to, Bob 
ASEM ti, Carol 的 完成 时 间 为 tz。 就 像 我 们 之 前 看 到 的 一 样 ，ta 的 估计 是 
依赖 于 to W, to 的 估计 是 直接 依赖 于 ta 的 ， 但 是 仅仅 间接 地 依赖 于 to。 我 们 用 一 
个 有 向 图 模型 来 建 模 这 种 关系 ， 如 图 16.2 所 示 。 








Alice Bob Carol 


O06, 


图 16.2: 描述 接力 赛 例子 的 有 向 图 模型 。Alice 的 完成 时 间 to 影响 了 Bob 的 完成 时 间 tl ， 因 为 
Bob 只 能 在 Alice 完成 比赛 后 才 开 始 。 类 似 的 ，Carol 也 只 会 在 Bob 完成 之 后 才 开 始 ， 所 以 Bob 
的 完成 时 间 ta 直接 影响 了 Carol 的 完成 时 间 to. 


正式 地 说 ,变量 x 的 有 问 概 率 模型 是 通过 有 向 无 环 图 9 (每 个 结 点 都 是 模型 中 的 
随机 变量 ) 和 一 系列 局 部 条 件 概 率 分 布 (local conditional probability distribution ) 
p(x; | Pao (xi)) 来 定义 的 ， 其 中 Pag(x;) 表示 结 点 x; 的 所 有 父 结 点 。x 的 概率 分 布 
可 以 表示 为 

p(x) = [ee | Pac (xi))， (16.1) 


2 


在 之 前 所 述 的 接力 赛 的 例子 中 ， 参 考 图 16.2 ， 这 意味 着 概率 分 布 可 以 被 表示 为 


p(to, ti, t2) = p(to)p(ti | to)p(tə | tı). (16.2) 








2 当 我 们 希望 “强调 ”从 网 络 中 计算 出 的 值 的 “推断 ”本 质 ， 即 强调 这 些 值 代表 的 是 置信 程度 大 小 而 不 是 事件 的 频 
率 时 ，Judea Pearl 建议 使 用 “ 贝 叶 斯 网 络 ” 这 个 术语 。 
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这 是 我 们 看 到 的 第 一 个 结构 化 概率 模型 的 实际 例子 。 我 们 能 够 检查 这 样 建 模 的 
计算 开销 ， 为 了 验证 相 比 于 非 结 构 化 建 模 ， 结 构 化 建 模 为 什么 有 那么 多 的 优势 。 

假设 我 们 采用 从 第 0 分 钟 到 第 10 分 钟 每 6 秒 一 块 的 方式 离散 化 地 表示 时 间 。 
这 使 得 to, tı 和 te 都 是 一 个 有 100 个 取 值 可 能 的 离散 变量 。 如 果 我 们 尝试 着 用 一 个 
表 来 表示 p(to,t1,t2)， 那 么 我 们 需要 存储 999, 999 “MEL (100 个 to 的 可 能 取 值 x tı 
的 可 能 取 值 x 100 个 ta 的 可 能 取 值 减 去 1， 由 于 存在 所 有 的 概率 之 和 为 1 的 限制 ， 
所 以 其 中 有 1 个 值 的 存储 是 多 余 的 )。 反 之 ， 如 果 我 们 用 一 个 表 来 记录 每 一 种 条 件 概 
率 分 布 ， 那 么 表 中 记录 to 的 分 布 需要 存储 99 个 值 ， 给 定 to 情况 下 ti 的 分 布 需要 
存储 9900 个 值 ， 给 定 ti 情况 下 to 的 分 布 也 需要 存储 9900 个 值 。 加 起 来 总 共 需 要 
存储 19,899 个 值 。 这 意味 着 使 用 有 向 图 模型 将 参数 的 个 数 减少 了 超过 50 倍 ! 

通常 意义 上 说 ， 对 每 个 变量 都 能 取 k 个 值 的 ”个 变量 建 模 ， 基 于 建 表 的 方法 需 
要 的 复杂 度 是 O(k"*)， 就 像 我 们 之 前 观察 到 的 一 样 。 现 在 假设 我 们 用 一 个 有 向 图 模 
型 来 对 这 些 变 量 建 模 。 如 果 m 代表 图 模型 的 单个 条 件 概 率 分 布 中 最 大 的 变量 数目 
(在 条 件 符号 的 左右 皆 可 )， 那 么 对 这 个 有 向 模型 建 表 的 复杂 度 大 致 为 O(k")。 只 要 
我 们 在 设计 模型 时 使 其 满足 m <- n， 那 么 复杂 度 就 会 被 大 大 地 减 小 。 

换 一 句 话说 ， 只 要 图 中 的 每 个 变量 都 只 有 少量 的 父 结 点 ， 那 么 这 个 分 布 就 可 以 
用 较 少 的 参数 来 表示 。 图 结构 上 的 一 些 限制 条 件 ， 比 如 说 要 求 这 个 图 为 一 棵 树 ， 也 
可 以 保证 一 些 操作 (例如 求 一 小 部 分 变量 的 边缘 或 者 条 件 分 布 ) 更 加 地 高 效 。 

决定 哪些 信息 需要 被 包含 在 图 中 而 哪些 不 需要 是 很 重要 的 。 如 果 变 量 之 间 可 以 
被 假设 为 是 条 件 独立 的 ， 那 么 这 个 图 可 以 包含 这 种 简化 假设 。 当 然 也 存在 其 他 类 型 
的 简化 图 模型 的 假设 。 例 如 ， 我 们 可 以 假设 无 论 Alice 的 表现 如 何 ，Bob 总 是 跑 得 
一 样 快 (实际 上 ，Alice 的 表现 很 大 概率 会 影响 Bob 的 表现 ， 这 取决 于 Bob 的 性 格 ， 
如 果 在 之 前 的 比赛 中 Alice 跑 得 特别 快 ， 这 有 可 能 鼓励 Bob 更 加 努力 并 取得 更 好 的 
成 绩 ， 当 然 这 也 有 可 能 使 得 Bob 过 分 自信 或 者 变 得 懒 居 )。 那 么 Alice 对 Bob 的 唯 
一 影响 就 是 在 计算 Bob 的 完成 时 间 时 需要 加 上 Alice 的 时 间 。 这 个 假设 使 得 我 们 所 
TWSA Ok?) 降 到 了 O(k)。 然 而 ,值得 注意 的 是 在 这 个 假设 下 to M tı 15 
然 是 直接 相关 的 ， 因 为 t 表示 的 是 Bob 完成 时 的 时 间 ， 并 不 是 他 跑 的 总 时 间 。 这 也 
意味 着 图 中 会 有 一 个 从 to 指向 ti 的 箭头 。“Bob 的 个 人 跑步 时 间 相 对 于 其 他 因素 是 
独立 的 ”这 个 假设 无 法 在 to, ti, to 的 图 中 被 表示 出 来 。 反之 ,我们 只 能 将 这 个 关系 
表示 在 条 件 分 布 的 定义 中 。 这 个 条 件 分 布 不 再 是 一 个 大 小 为 kk x 一 1 的 分 别 对 应 着 
to, ti 的 表格 ,而 是 一 个 包含 了 一 1 个 参数 的 略微 复杂 的 公式 。 有 向 图 模型 的 语法 
并 不 能 对 我 们 如 何 定义 条 件 分 布 作出 任何 限制 。 它 只 定义 了 哪些 变量 可 以 作为 其 中 
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的 参数 。 


16.2.2 “无 向 模型 


有 向 图 模型 为 我 们 提供 了 一 种 描述 结构 化 概率 模型 的 语言 。 而 另 一 种 常见 的 语 
言 则 是 无 向 模型 (undirected Model )， 也 被 称 为 马尔 可 夫 随 机 场 (Markov random 
field, MRF ) 或 者 是 马尔 可 夫 网 络 ( Markov network ) (Kindermann, 1980)。 就 像 它 
们 的 名 字 所 说 的 那样 ， 无 向 模型 中 所 有 的 边 都 是 没有 方向 的 。 

当 存在 很 明显 的 理由 画 出 每 一 个 指向 特定 方向 的 箭头 时 ， 有 向 模型 显然 最 适用 。 
有 回 模 型 中 ， 经 常 存在 我 们 理解 的 具有 因果 关系 以 及 因果 关系 有 明确 方向 的 情况 。 
接力 赛 的 例子 就 是 一 个 这 样 的 情况 。 之 前 运动 员 的 表现 会 影响 后 面 运 动员 的 完成 时 
间 ， 而 后 面 运动 员 却 不 会 影响 前 面 运动 员 的 完成 时 间 。 

然而 并 不 是 所 有 情况 的 相互 作用 都 有 一 个 明确 的 方向 关系 。 当 相互 的 作用 并 没 
有 本 质 性 的 指向 ， 或 者 是 明确 的 双向 相互 作用 时 ， 使 用 无 癌 模 型 更 加 合适 。 

作为 一 个 这 种 情况 的 例子 ， 假 设 我 们 希望 对 三 个 二 值 随机 变量 建 模 : 你 是 否 生 
病 ， 你 的 同事 是 否 生病 以 及 你 的 室友 是 否 生 病 。 就 像 在 接力 赛 的 例子 中 所 作 的 简化 
假设 一 样 ， 我 们 可 以 在 这 里 做 一 些 关于 相互 作用 的 简化 假设 。 假 设 你 的 室友 和 同事 
并 不 认识 ， 所 以 他 们 不 太 可 能 直接 相互 传染 一 些 疾 病 ， 比 如 说 感冒 。 这 个 事件 太 过 
罕见 ， 所 以 我 们 不 对 此 事件 建 模 。 然 而 ， 很 有 可 能 其 中 之 一 将 感冒 传染 给 你 ， 然 后 
通过 你 再 传染 给 了 另 一 个 人 。 我 们 通过 对 你 的 同事 传染 给 你 以 及 你 传染 给 你 的 室友 
建 模 来 对 这 种 间接 的 从 你 的 同事 到 你 的 室友 的 感冒 传染 建 模 。 

在 这 种 情况 下 ， 你 传染 给 你 的 室友 和 你 的 室友 传染 给 你 都 是 非常 容易 的 ， 所 以 
模型 不 存在 一 个 明确 的 单 向 箭头 。 这 启发 我 们 使 用 无 向 模型 。 其 中 随机 变量 对 应 着 
图 中 的 相互 作用 的 结 点 。 与 有 向 模型 相同 的 是 ， 如 果 在 无 向 模型 中 的 两 个 结 点 通过 
一 条 边 相 连接 ,那么 对 应 这 些 结 点 的 随机 变量 相互 之 间 是 直接 作用 的 。 不 同 于 有 向 
模型 ， 在 无 癌 模 型 中 的 边 是 没有 方向 的 ， 并 不 与 一 个 条 件 分 布 相关 联 。 

我 们 把 对 应 你 健康 状况 的 随机 变量 记 作 hy ， 对 应 你 的 室友 健康 状况 的 随机 变量 
记 作 hp， 你 的 同事 健康 的 变量 记 作 ho。 图 16.3 表示 这 种 关系 。 

正式 地 说 ， 一 个 无 向 模型 是 一 个 定义 在 无 向 模型 9 上 的 结构 化 概率 模型 。 对 于 
图 中 的 每 一 个 团 3 C, 一 个 因子 (factor) $(C)( 也 称 为 团 势 能 (clique potential ) ), 


3 图 的 一 个 团 是 图 中 结 点 的 一 个 子 集 ， 并 且 其 中 的 点 是 全 连接 的 
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图 16.3: 表示 你 室友 健康 状况 的 hv 、 你 健康 状况 的 hy 和 你 同事 健康 状况 的 he 之 间 如 何 相互 影响 
的 一 个 无 向 图 。 你 和 你 的 室友 可 能 会 相互 传染 感冒 ， 你 和 你 的 同事 之 间 也 是 如 此 ， 但 是 假设 你 室 
友和 同事 之 间 相 互 不 认识 ， 他 们 只 能 通过 你 来 间接 传染 。 

































































衡量 了 团 中 变量 每 一 种 可 能 的 联合 状态 所 对 应 的 密切 程度 。 这 些 因 子 都 被 限制 为 是 
非 负 的 。 它 们 一 起 定义 了 未 归 一 化 概率 函数 (unnormalized probability function ): 
p(x) = [[ 4). (16.3) 
CEG 

只 要 所 有 团 中 的 结 点 数 都 不 大 ， 那 么 我 们 就 能 够 高 效 地 处 理 这 些 未 归 一 化 概率 
图 数 。 它 包含 了 这 样 的 思想 ， 密 切 度 越 高 的 状态 有 越 大 的 概率 。 然 而 ,不 像 贝 叶 斯 网 
络 ， 几 乎 不 存在 团 定 义 的 结构 ， 所 以 不 能 保证 把 它们 乘 在 一 起 能 够 得 到 一 个 有 效 的 

概率 分 布 。 图 16.4 展示 了 一 个 从 无 向 模型 中 读 取 分 解 信息 的 例子 。 


图 164 ”这 个 图 说 明 通 过 选择 适当 的 办 MR pabcden 可 以 写作 
去 gab (a, b)¢p,c(b, C) Waala, d) Pp,elb, e)perle, f) o 





在 你 、 你 的 室友 和 同事 之 间 感 冒 传染 的 例子 中 包含 了 两 个 团 。 一 个 团 包 含 了 hy 
和 he。 这 个 团 的 因子 可 以 通过 一 个 表 来 定义 ， 可 能 取 到 下 面 的 值 : 

状态 为 1 代表 了 健康 的 状态 ， 相 对 的 状态 为 0 则 表示 不 好 的 健康 状态 〈 即 感染 
了 感冒 )。 你 们 两 个 通常 都 是 健康 的 ， 所 以 对 应 的 状态 拥有 最 高 的 密切 程度 。 两 个 人 
中 只 有 一 个 人 是 生病 的 密切 程度 是 最 低 的 ， 因 为 这 是 一 个 很 罕见 的 状态 。 两 个 人 都 
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生病 的 状态 (通过 一 个 人 来 传染 给 了 男 一 个 人 ) 有 一 个 稍 高 的 密切 程度 ， 尽 管 仍然 
不 及 两 个 人 都 健康 的 密切 程度 。 
为 了 完整 地 定义 这 个 模型 ， 我 们 需要 对 包含 hy 和 hvr 的 团 定 义 类 似 的 因子 。 








16.2.3 ” 配 分 函数 


尽管 这 个 未 归 一 化 概率 函数 处 处 不 为 零 ， 我 们 仍然 无 法 保证 它 的 概率 之 和 或 者 
积分 为 1。 为 了 得 到 一 个 有 效 的 概率 分 布 , 我 们 需要 使 用 对 应 的 归 一 化 的 概率 分 布 “: 


p(x) = Late) (16.4) 
其 中 ，2 是 使 得 所 有 的 概率 之 和 或 者 积分 为 LR, HEWWE: 
f A (16.5) 


当 函 数 $ 固定 时 ， 我 们 可 以 把 Z GRESE (ER RR o 带 有 
参数 时 ， 那么 Z 是 这 些 参数 的 一 个 函数 。 在 相关 文献 中 为 了 节省 空间 忽略 控制 2 的 
变量 而 直接 写 2 是 一 个 常用 的 方式 。 归 一 化 常数 2 被 称 作 是 配 分 函数 ， 这 是 一 个 从 
统计 物理 学 中 借鉴 的 术语 。 

由 于 2 通常 是 由 对 所 有 可 能 的 x 状态 的 联合 分 布 空间 求 和 或 者 求 积 分 得 到 的 ， 
它 通常 是 很 难 计算 的 。 为 了 获得 一 个 无 向 模型 的 归 一 化 概率 分 布 ， 模 型 的 结构 和 函 
数 $ 的 定义 通常 需要 设计 为 有 助 于 高 效 地 计算 Z。 在 深度 学 习 中 ，2 通常 是 难以 处 
理 的 。 由 于 -难以 精确 地 计算 出 ， 我 们 只 能 使 用 一 些 近似 的 方法 。 这 样 的 近似 方法 
是 第 千 八 章 的 主要 内 容 。 

在 设计 无 向 模型 时 ， 我 们 必须 牢记 在 心 的 一 个 要 点 是 设 定 一 些 使 得 2 不 存在 
的 因子 也 是 有 可 能 的 。 当 模型 中 的 一 些 变 量 是 连续 的 ， 且 p 在 其 定义 域 上 的 积分 发 
散 时 这 种 情况 就 会 发 生 。 例 如 ， 当 我 们 需要 对 一 个 单独 的 标量 变量 x < R 建 模 ， 并 
且 单个 团 势 能 定义 为 9(z) = z? 时 。 在 这 种 情况 下 ， 




















Z= fea, (16.6) 


由 于 这 个 积分 是 发 散 的 ， 所 以 不 存在 一 个 对 应 着 这 个 势能 函数 ol) 的 概率 分 布 。 有 
时 候 o 函数 某 些 参数 的 选择 可 以 决定 相应 的 概率 分 布 是 否 能 够 被 定义 。 例 如 ， 对 o 


“一 个 通过 归 一 化 团 势 能 乘积 定义 的 分 布 也 被 称 作 是 吉 布 斯 分 布 ( Gibbs distribution ) 
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函数 olx; 6) = exp( 一 Bx?) Rit, BR 6 决定 了 归 一 化 常数 2 是 否 存在 。 正 的 8 使 
得 4 函数 是 一 个 关于 x 的 高 斯 分 布 ， 但 是 非 正 的 参数 8 则 使 得 % 不 可 能 被 归 一 化 。 

有 向 建 模 和 无 向 建 模 之 间 一 个 重要 的 区 别 就 是 有 向 模型 是 通过 从 起 始点 的 概率 
分 布 直接 定义 的 ， 反 之 无 向 模型 的 定义 显得 更 加 宽松 ,通过 % 函数 转化 为 概率 分 布 
而 定义 。 这 改变 了 我 们 处 理 这 些 建 模 问 题 的 直觉 。 当 我 们 处 理 无 向 模型 时 需要 牢记 
一 点 ， 每 一 个 变量 的 定义 域 对 于 一 系列 给 定 的 $ 函数 所 对 应 的 概率 分 布 有 着 重要 的 
影响 。 举 个 例子 ,我 们 考虑 一 个 n 维 向 量 的 随机 变量 x 以 及 一 个 由 偏 置 向 量 b 参数 
化 的 无 向 模型 。 假 设 x 的 每 一 个 元 素 对 应 着 一 个 团 ， 并 且 满 足 6 (x;) = exp(bixi)。 
在 这 种 情况 下 概率 分 布 是 怎样 的 呢 ? 答案 是 我 们 无 法 确定 ， 因 为 我 们 并 没有 指定 x 
的 定义 域 。 如 果 x 满足 x © R"， 那么 有 关 归 一 化 常数 2 的 积分 是 发 散 的 ， 这 导 
致 了 对 应 的 概率 分 布 是 不 存在 的 。 如 果 x © {0,1}", BBA p(x) 可 以 被 分 解 成 n 个 
独立 的 分 布 ， 并 且 满 足 p(x; = 1) = sigmoid(b;)。 如 果 x 的 定义 域 是 基本 单位 向 量 
({[1,0,...,0],[0,1,...,0],...,[0,0,...,1)}) 的 集合 ,那么 p(x) = softmax(5)， 因 此 
对 于 i Ai, 一 个 较 大 的 b; 的 值 会 降低 所 有 p(x; = 1) 的 概率 。 通 常情 况 下 ， 通 过 仔 
细 选 择 变量 的 定义 域 ， 能 够 从 一 个 相对 简单 的 4% 函数 的 集合 可 以 获得 一 个 相对 复杂 
的 表达 。 我 们 会 在 第 20.6 节 中 讨论 这 个 想法 的 实际 应 用 。 








16.2.4 ”基于 能 量 的 模型 


无 向 模型 中 许多 有 趣 的 理论 结果 都 依赖 于 Ve, pæ) > 0 这 个 假设 。 使 这 个 条 件 
满足 的 一 种 简单 方式 是 使 用 基于 能 量 的 模型 Energy-based model, EBM )， 其 中 





p(x) = exp(—E(x)), (16.7) 


E(x) 被 称 作 是 能 量 函 数 (energy function )。 对 所 有 的 z，exp(z) 都 是 正 的 ， 这 保证 
了 没有 一 个 能 量 孔 数 会 使 得 某 一 个 状态 x 的 概率 为 0。 我 们 可 以 完全 自由 地 选择 那 
些 能 够 简化 学 习 过 程 的 能 量 函 数 。 如 果 我 们 直接 学 习 各 个 团 势 能 ， 我 们 需要 利用 约 
束 优化 方法 来 任意 地 指定 一 些 特 定 的 最 小 概率 值 。 学 习 能 量 函 数 的 过 程 中 ， 我 们 可 
以 采用 无 约束 的 优化 方法 5。 基 于 能 量 的 模型 中 的 概率 可 以 无 限 趋 近 于 0 但 是 永远 达 
不 到 0。 

服从 式 (16.7) 形 式 的 任意 分 布 都 是 玻 尔 兹 曼 分 布 (Boltzmann distribution ) 
的 一 个 实例 。 正 是 基于 这 个 原因 ， 我们 把 许多 基于 能 量 的 模型 称 为 玻 尔 兹 曼 机 

5 对 于 某 些 模 型 ， 我 们 可 以 仍然 使 用 约束 优化 方法 来 确保 Z 存在 。 
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(Boltzmann Machine) (Fahlman et al., 1983; Ackley et al., 1985; Hinton et al., 
1984a; Hinton and Sejnowski, 1986)。 关 于 什么 时 候 称 之 为 基于 能 量 的 模型 ， 什 么 时 
候 称 之 为 玻 尔 效 曼 机 不 存在 一 个 公认 的 判别 标准 。 一 开始 玻 尔 效 曼 机 这 个 术语 是 用 
来 描述 一 个 只 有 二 值 变量 的 模型 ， 但 是 如 今 许 多 模型 ， 比 如 均值 - 协 方差 RBM, 也 
涉及 到 了 实 值 变 量 。 虽 然 玻 尔 效 曼 机 最 初 的 定义 既 可 以 包含 潜 变 量 也 可 以 不 包含 潜 
变量 ,但 是 时 至 今日 玻 尔 兹 曼 机 这 个 术语 通常 用 于 指 拥 有 洪 变 量 的 模型 ， 而 没有 洪 
变量 的 玻 尔 兹 曼 机 则 经 常 被 称 为 马尔 可 夫 随 机 场 或 对 数 线性 模型 。 

无 向 模型 中 的 团 对 应 于 未 归 一 化 概率 函数 中 的 因子 。 通过 expla + 6) = 
exp(a) exp(b)， 我 们 发 现 无 向 模型 中 的 不 同 团 对 应 于 能 晤 函数 的 不 同 项 。 换 句 话说 ， 
基于 能 量 的 模型 只 是 一 种 特殊 的 马尔 可 夫 网 络 : 求 需 使 能 量 函 数 中 的 每 个 项 对 应 
于 不 同 团 的 一 个 因子 。 关 于 如 何 从 无 向 模型 结构 中 获得 能 量 函 数 形式 的 示例 可 以 参 
考 图 16.5 。 人 们 可 以 将 能 量 函 数 中 带 有 多 个 项 的 基于 能 量 的 模型 视 作 是 专家 之 积 
(product of expert ) (Hinton, 1999)。 能 量 也 数 中 的 每 一 项 对 应 的 是 概率 分 布 中 的 
一 个 因子 。 能 量 函 数 中 的 每 一 项 都 可 以 看 作 决定 一 个 特定 的 软 约 束 是 否 能 够 满足 的 
“专家 "”。 每 个 专家 只 执行 一 个 约束 ， 而 这 个 约束 仅仅 涉及 随机 变量 的 一 个 低 维 投影 ， 
但 是 当 其 结合 概率 的 乘法 时 ， 专 家 们 一 同 构造 了 复杂 的 高 维 约束 。 


图 16.5: 这 个 图 说 明 通过 为 每 个 团 选择 适当 的 能 量 函 数 E(a, b,c, d,e,f) 可 以 写作 Esv(a,b) 十 


Pbc(b,c) + Ea,a(a,d) + Eb,e(b,e) + Ee sle, fo 值得 注意 的 是 ,我们 令 $ 等 于 对 应 负 能 量 的 指数 ， 
可 以 获得 图 16.4 中 的 o ea, LEM, ġa b(a, b) = exp( 一 已 (a,b))。 



































基于 能 量 的 模型 定义 的 一 部 分 无 法 用 机 器 学 习 观 点 来 解释 : 即 式 (16.7) 中 的 “-” 
符号 。 这 个 “-” 符 号 可 以 被 包含 在 E 的 定义 之 中 。 对 于 很 多 E 函数 的 选择 来 说 ， 学 
习 算 法 可 以 自由 地 决定 能 量 的 符号 。 这 个 负 号 的 存在 主要 是 为 了 保持 机 器 学 习 文 献 
和 物理 学 文献 之 间 的 兼容 性 。 概 率 建 模 的 许多 研究 最 初 都 是 由 统计 物理 学 家 做 出 的 ， 
其 中 E 是 指 实际 的 、 物 理 概 念 的 能 量 ， 没 有 任何 符号 。 诸 如 “能 量 ” 和 “ 配 分 函数 ” 
这 类 术语 仍然 与 这 些 技术 相关 联 ， 尽 管 它们 的 数学 适用 性 比 在 物理 中 更 宽 。 一 些 机 
器 学 习 研 究 者 〈 例 如 ，Smolensky (1986) 将 负 能 量 称 为 harmony (harmony ) ) 发 
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出 了 不 同 的 声音 ， 但 这 些 都 不 是 标准 惯例 。 

许多 对 概率 模型 进行 操作 的 算法 不 需要 计算 pnoasa(m， 而 只 需要 计算 
log Pmodoi (£) HITRA RTE h 的 基于 能 量 的 模型 ， 这 些 算法 有 时 会 将 该 量 的 负数 
称 为 自由 能 (free energy ): 








F(x) = — log 》 exp(—E(z, h)). (16.8) 


在 本 书 中 ， 我 们 更 倾向 于 更 为 通用 的 基于 log Pmoaei(a) 的 定义 。 


16.2.5 DAM d- 分 离 


图 模型 中 的 边 告诉 我 们 哪些 变量 直接 相互 作用 。 我 们 经 常 需要 知道 哪些 变量 间 
接 相 互 作用 。 某 些 间接 相互 作用 可 以 通过 观察 其 他 变量 来 启用 或 禁用 。 更 正式 地 , 我 
们 想 知道 在 给 定 其 他 变量 子 集 的 值 时 ， 哪 些 变 量子 集 彼此 条 件 独 立 。 

在 无 向 模型 中 ,识别 图 中 的 条 件 独立 性 是 非常 简单 的 。 在 这 种 情况 下 ， 图 中 隐 
含 的 条 件 独立 性 称 为 分 离 ( separation )。 如 果 图 结构 显示 给 定 变量 集 S 的 情况 下 变 
量 集 A 与 变量 集 B 无 关 ， 那么 我 们 声称 给 定 变 量 集 S 时 ， 变 量 集 A 与 男 一 组 变量 
集 BB 是 分 离 的 。 如 果 连 接 两 个 变量 a 和 b 的 连接 路 径 仅 涉及 未 观察 变量 ， 那 么 这 些 
变量 不 是 分 离 的 。 如 果 它 们 之 间 没 有 路 径 ， 或 者 所 有 路 径 都 包含 可 观测 的 变量 ， 那 
么 它们 是 分 离 的 。 我 们 认为 仅 涉 及 未 观察 到 的 变量 的 路 径 是 “活跃 ”的 ， 而 包括 可 观 
察 变量 的 路 径 称 为 “ 非 活跃 ”的 。 

当 我 们 画图 时 ， 我 们 可 以 通过 加 阴影 来 表示 观察 到 的 变量 。 图 16.6 用 于 描述 当 
以 这 种 方式 绘图 时 无 向 模型 中 的 活 贱 和 非 活跃 路 径 的 样子 。 图 16.7 描 述 了 一 个 从 无 
向 模型 中 读 取 分 离 信息 的 例子 。 


(a) (b) 


图 16.6: (a) 随机 变量 a 和 随机 变量 b 之 间 穿 过 s 的 路 径 是 活跃 的 ， 因 为 s 是 观察 不 到 的 。 这 意 
RE a, b 之 间 不 是 分 离 的 。(b) 图 中 s 用 阴影 填充 ， 表示 它 是 可 观察 的 。 因 为 a 和 b 之 间 的 唯 
路 径 通过 s， 并 且 这 条 路 径 是 不 活跃 的 ， 我 们 可 以 得 出 结论 ， 在 给 定 s 的 条 件 下 a 和 b 是 分 离 的 。 
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图 16.7: 从 一 个 无 向 图 中 读 取 分 离 性 质 的 一 个 例子 。 这 里 b 用 阴影 填充 , 表示 它 是 可 观察 的 。 由 于 
b 挡住 了 从 a 到 c 的 唯一 路 径 ， 我 们 说 在 给 定 b 的 情况 下 a 和 c 是 相互 分 离 的 。 观察 值 b 同样 
挡住 了 从 a 到 d 的 一 条 路 径 ， 但 是 它们 之 间 有 另 一 条 活跃 路 径 。 因 此 给 定 b 的 情况 下 a 和 d 不 
是 分 离 的 。 
































类 似 的 概念 适用 于 有 向 模型 ， 只 是 在 有 向 模型 中 ， 这 些 概 念 被 称 为 d- 分 离 ( d- 
separation ) “d” 代表 “依赖 ”的 意思 。 有 癌 图 中 d 分 离 的 定义 与 无 向 模型 中 分 离 的 
定义 相同 : 如 果 图 结构 显示 给 定 变量 集 SI, TER A 与 变量 集 BEX, 那么 我 们 
认为 给 定 变 量 集 $ 时 ， 变 量 集 A d- 分 离 于 变量 集 B- 

与 无 向 模 型 一 样 ， 我 们 可 以 通过 查看 图 中 存在 的 活跃 路 径 来 检查 图 中 隐 售 的 独 
立 性 。 如 前 所 述 ， 如 果 两 个 变量 之 间 存 在 活跃 路 径 ， 则 两 个 变量 是 依赖 的 ， 如 果 没 
有 活跃 路 径 ， 则 为 qd- 分离 。 在 有 回 网 络 中 ， 确 定 路 径 是 否 活跃 有 点 复杂 。 关 于 在 有 问 
模型 中 识别 活跃 路 径 的 方法 可 以 参考 图 16.8 。 图 16.9 是 从 一 个 图 中 读 取 一 些 属性 的 
例子 。 

尤其 重要 的 是 要 记 住 分 离 和 d- 分 离 只 能 告诉 我 们 图 中 人 隐 含 的 条 件 独立 性 。 图 并 
不 需要 表示 所 有 存在 的 独立 性 。 进一步 的 , 使 用 完全 图 ( 具有 所 有 可 能 的 边 的 图 ) 来 
表示 任何 分 布 总 是 合法 的 。 事 实 上 ,一些 分 布 包 含 不 可 能 用 现 有 图 形 符号 表示 的 独 
立 性 。 特定 环境 下 的 独立 ( context-specific independences ) 指 的 是 取决 于 网 络 中 一 
些 变量 值 的 独立 性 。 例 如 ， 考 虑 三 个 二 值 变 量 的 模型 : a，b Alco 假设 当 a 是 0 时 ， 
b 和 c 是 独立 的 , 但 是 当 a 是 1 时，b 确定 地 等 于 c。 当 a = 1 时 图 模型 需要 连接 b 
和 c 的 边 。 但 是 图 不 能 说 明 当 a = 0 时 b 和 c 不 是 独立 的 。 

一 般 来 说 ， 当 独立 性 不 存在 时 ， 图 不 会 显示 独立 性 。 然 而 ,图 可 能 无 法 编码 独立 
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(c) (a) 











图 16.8: 两 个 随机 变量 a，b 之 间 存 在 的 长 度 为 2 的 所 有 种 类 的 活跃 路 径 。(a) 箭头 方向 从 a 指向 
b 的 任何 路 径 ， 反 过 来 也 一 样 。 如 果 s 可 以 被 观察 到 ， 这 种 路 径 就 是 阻塞 的 。 在 接力 赛 的 例子 中 ， 
我 们 已 经 看 到 过 这 种 类 型 的 路 径 。(b) 变量 a 和 b 通过 共 因 s 相连 。 举 个 例子 ,假设 s 是 一 个 表 
示 是 否 存在 飓风 的 变量 ，a 和 b 表示 两 个 相 邻 气象 监控 区 域 的 风速 。 如 果 我 们 在 a 处 观察 到 很 高 
的 风速 ,我 们 可 以 期 望 在 5 处 也 观察 到 高 速 的 风 。 如 果 观 察 到 s， 那 么 这 条 路 径 就 被 阻塞 了 。 如 果 
我 们 已 经 知道 存在 朵 风 ， 那 么 无 论 a 处 观察 到 什么 ， 我 们 都 能 期 望 b 处 有 较 高 的 风速 。 在 a 处 观 
察 到 一 个 低 于 预期 的 风速 ( 对 飓风 而 言 ) 并 不 会 改变 我 们 对 b 处 风速 的 期 望 EA RU 
下 )。 然 而 ， 如 果 s 不 被 观测 到 ， 那 么 a 和 b 是 依赖 的 ， 即 路 径 是 活跃 的 。(c) 变量 a 和 b 都 是 
s 的 父 节点 。 这 称 为 V- 结 构 ( V-structure ) 或 者 碰撞 情况 (the collider case )。 根 据 相 消 解释 作 
用 (explaining away effect )，V- 结 构 导 致 a 和 b 是 相关 的 。 在 这 种 情况 下 ， 当 s 被 观测 到 时 路 径 
是 活跃 的 。 举 个 例子 ,假设 s 是 一 个 表示 你 的 同事 不 在 工作 的 变量 。 变 量 a 表示 她 生病 了 ， 而 变 
dt b 表示 她 在 休假 。 如 果 你 观察 到 了 她 不 在 工作 ， 你 可 以 假设 她 很 有 可 能 是 生病 了 或 者 是 在 度假 ， 
但 是 这 两 件 事 同 时 发 生 是 不 太 可 能 的 。 如 果 你 发 现 她 在 休假 ， 那 么 这 个 事实 足够 解释 她 的 缺席 了 。 
你 可 以 推断 她 很 可 能 没有 生病 。(d) 即使 s 的 任意 后 代 都 被 观察 到 ， 相 消解 释 作 用 也 会 起 作用 。 举 
个 例子 ,假设 c 是 一 个 表示 你 是 否 收 到 你 同事 的 报告 的 一 个 变量 。 如 果 你 注意 到 你 还 没有 收 到 这 
个 报告 ， 这 会 增加 你 估计 的 她 今天 不 在 工作 的 概率 ， 这 反 过 来 又 会 增加 她 今天 生病 或 者 度假 的 概 
率 。 阻 塞 V- 结 构 中 路 径 的 唯一 方法 就 是 共享 子 节点 的 后 代 一 个 都 观察 不 到 。 
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a 和 e 是 d- 分 离 的 。 





青 况 | 


我 们 还 可 以 发 现 当 我 1 








e 给 定 c W 


F, dẹ e 是 d- 分 离 的 。 


门 观察 到 一 些 变 量 时 ， 一 些 














4 


变量 不 再 


4 











青 况 ] 


F, a 和 b 不 是 d- 分 离 的 。 


e 给 定 d 的 情况 下 ，a 和 b 不 是 d- 分 离 的 。 


16.2.6 ”在 有 向 模型 和 无 向 模型 中 转换 

















我 们 可 以 发 现 一 些 d- 分 离 的 性 质 。 这 包括 了 : 
给 定 空 集 的 情况 下 ，a 和 b 是 d- 分 离 的 。 
青 况 下 ， 


是 d- 分 离 的 : 
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我 们 经 常 将 特定 的 机 器 学 习 模 型 称 为 无 向 模型 或 有 向 模型 。 例 如 , 我 们 通常 将 受 
限 玻 尔 兹 曼 机 称 为 无 向 模型 ， 而 稀 玻 编码 则 被 称 为 有 向 模型 。 这 种 措 梧 的 选择 可 能 
有 点 误导 ， 因 为 没有 概率 模型 本 质 上 是 有 向 或 无 向 的 。 但 是 ， 一 些 模型 很 适合 使 用 
有 向 图 描述 ， 而 另 一 些 模型 很 适合 使 用 无 向 模型 描述 。 

有 向 模型 和 无 向 模型 都 有 其 优点 和 缺点 。 这 两 种 方法 都 不 是 明显 优越 和 普遍 优 
选 的 。 相 反 ， 我 们 根据 具体 的 每 个 任务 来 决定 使 用 哪 一 种 模型 。 这 个 选择 部 分 取决 
于 我 们 希望 描述 的 概率 分 布 。 根 据 哪 种 方法 可 以 最 大 程度 地 捕捉 到 概率 分 布 中 的 独 
立 性 ,或 者 哪 种 方法 使 用 最 少 的 边 来 描述 分 布 ， 我 们 可 以 决定 使 用 有 向 建 模 还 是 无 
问 建 模 。 还 有 其 他 因素 可 以 影响 我 们 决定 使 用 哪 种 建 模 方式 。 即 使 在 使 用 单个 概率 
分 布 时 ， 我 们 有 时 也 可 以 在 不 同 的 建 模 方式 之 间 切 换 。 有 时 ， 如 果 我 们 观察 到 变量 
的 某 个 子 集 ， 或 者 如 果 我 们 和 希望 执行 不 同 的 计算 任务 ， 换 一 种 建 模 方式 可 能 更 合适 。 
例如 ， 有 向 模型 通常 提供 了 一 种 高 效 地 从 模型 中 抽取 样本 (在 第 16.3 方 中 描述 ) 的 
直接 方法 。 而 无 向 模型 形式 通常 对 于 推导 近似 推断 过 程 ( 我 们 将 在 第 十 九 章 中 看 到 ， 


式 (19.56) 强调 了 无 向 模型 的 作用 ) 是 很 有 用 的 。 
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每 个 概率 分 布 可 以 由 有 向 模型 或 由 无 向 模型 表示 。 在 最 坏 的 情况 下 ， 我 们 可 以 
使 用 “完全 图 ”来 表示 任何 分 布 。 在 有 向 模型 的 情况 下 ， 完 全 图 是 任意 有 向 无 环 图 ， 
其 中 我 们 对 随机 变量 排序 ， 并 且 每 个 变量 在 排序 中 位 于 其 之 前 的 所 有 其 他 变量 作为 
其 图 中 的 祖先 。 对 于 无 向 模型 ， 完 全 图 只 是 包含 所 有 变量 的 单个 团 。 图 16.10 给 出 了 
一 个 实例 。 























图 16.10: 完全 图 的 例子 ， 完 全 图 能 够 描述 任何 的 概率 分 布 。 这 里 我 们 展示 了 一 个 带 有 四 个 随机 变 
量 的 例子 。( 左 ) 完全 无 向 图 。 在 无 向 图 中 ， 完 全 图 是 唯一 的 。( 右 ) 一 个 完全 有 向 图 。 在 有 向 图 中 ， 
不 存在 唯一 的 完全 图 。 我 们 选择 一 种 变量 的 排序 ， 然 后 对 每 一 个 变量 ， 从 它 本 身 开始 ， 向 每 一 个 
向 顺序 在 其 后 面 的 变量 画 一 条 弧 。 因 此 存在 着 关于 变量 数 阶 乘 数量 级 的 不 同 种 完全 图 。 在 这 个 
例子 中 ,我 们 从 左 到 右 从 上 到 下 地 排序 变量 。 


































































































当然 , 图 模型 的 优势 在 于 图 能 够 包含 一 些 变量 不 直接 相互 作用 的 信息 。 完全 图 并 
不 是 很 有 用 ， 因 为 它 并 不 隐 含 任何 独立 性 。 

当 我 们 用 图 表示 概率 分 布 时 ， 我 们 想 要 选择 一 个 包含 尽 可 能 多 独立 性 的 图 ， 但 
是 并 不 会 假设 任何 实际 上 不 存在 的 独立 性 。 

从 这 个 角度 来 看 ， 一 些 分 布 可 以 使 用 有 向 模型 更 高 效 地 表示 ， 而 其 他 分 布 可 以 
使 用 无 向 模型 更 高 效 地 表示 。 换 句 话 说 ， 有 向 模型 可 以 编码 一 些 无 向 模型 所 不 能 编 
码 的 独立 性 ， 反 之 亦 然 。 

有 向 模 型 能 够 使 用 一 种 无 向 模型 无 法 完美 表示 的 特定 类 型 的 子 结构 。 这 个 子 结 
构 被 称 为 不 道德 (immorality )。 这 种 结构 出 现在 当 两 个 随机 变量 a 和 b 都 是 第 三 个 
随机 变量 c 的 父 结 点 ， 并 且 不 存在 任 一 方向 上 直接 连接 a 和 b 的 边 时 。 (“不 道德 ” 
的 名 字 可 能 看 起 来 很 奇怪 ; 它 在 图 模型 文献 中 使 用 源 于 一 个 关于 未 婚 父母 的 笑话 。) 
为 了 将 有 向 模型 图 D 转换 为 无 向 模型 ， 我 们 需要 创建 一 个 新 图 ML。 对 于 每 对 变量 x 
和 y， 如 果 存 在 连接 D 中 的 x 和 y 的 有 向 边 (在 任 一 方向 上 ), 或 者 如 果 x 和 y 都 
是 图 D 中 男 一 个 变量 z 的 父 节 点 ， 则 在 WU 中 添加 连接 x 和 y 的 无 向 边 。 得 到 的 图 
U 被 称 为 是 道德 图 ( moralized graph )。 关 于 一 个 通过 道德 化 将 有 向 图 模型 转化 为 无 
向 模型 的 例子 可 以 参考 网 16.11 。 
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图 16.11: 通过 构造 道德 图 将 有 向 模型 (上 一 行 ) 转化 为 无 向 模型 (下 一 行 ) 的 例子 。( 左 ) 只 需要 
把 有 向 边 替换 成 无 咎 边 就 可 以 把 这 个 简单 的 链 转化 为 一 个 道德 图 。 得 到 的 无 向 模型 包含 了 完全 相 
同 的 独立 关系 和 条 件 独 立 关系 。( 中 ) 这 个 图 是 在 不 丢失 独立 性 的 情况 下 是 无 法 转化 为 无 向 模型 的 
最 简单 的 有 向 模型 。 这 个 图 包含 了 单个 完整 的 不 道德 结构 。 因 为 a 和 b 都 是 c 的 父 节 点 ， 当 c 被 
观察 到 时 ， 它 们 之 间 通 过 活跃 路 径 相 连 。 为 了 捕捉 这 个 依赖 ， 无 向 模型 必须 包含 一 个 含有 所 有 三 
个 变量 的 团 。 这 个 团 无 法 编码 a lL b 这 个 信息 。( 右 ) 一 般 来 说 ， 道 德 化 的 过 程 会 给 图 添加 许多 边 ， 
因此 丢失 了 一 些 隐 含 的 独立 性 。 举 个 例子 ， 这 个 稀 琉 编码 图 需要 在 每 一 对 隐藏 单元 之 间 添 加 道德 
化 的 边 ， 因 此 也 引入 了 二 次 数量 级 的 新 的 直接 依赖 。 
















































































同样 的 , 无 向 模型 可 以 包括 有 向 模型 不 能 完美 表示 的 子 结构 。 上 具体 来 说 ,如果 U 
包含 长 度 大 于 3 的 环 (loop )， 则 有 向 图 D 不 能 捕获 无 向 模型 U 所 包含 的 所 有 条 件 
独立 性 ， 除 非 该 环 还 包含 弦 (chord )。 环 指 的 是 由 无 向 边 连接 的 变量 序列 ， 并 且 满 
足 序列 中 的 最 后 一 个 变量 连接 回 序 列 中 的 第 一 个 变量 。 弦 是 定义 环 序列 中 任意 两 个 
非 连续 变量 之 间 的 连接 。 如 果 U 具有 长 度 为 4 或 更 大 的 环 ， 并 且 这 些 环 没有 弦 ， 我 
们 必须 在 将 它们 转换 为 有 向 模型 之 前 添加 弦 。 添 加 这 些 弦 会 丢弃 在 U 中 编码 的 一 些 
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独立 信息 。 通 过 将 弱 添 加 到 形成 的 图 被 称 为 弦 图 (chordal graph ) 或 者 三 角形 化 
图 (triangulated graph )， 因 为 我 们 现在 可 以 用 更 小 的 、 三 角 的 环 来 描述 所 有 的 环 。 
ZW IK AEA IAL D， 我 们 还 需要 为 边 指定 方向 。 当 这 样 做 时 ， 我 们 不 能 在 D 中 
创建 有 向 循环 ， 否 则 将 无 法 定义 有 效 的 有 向 概率 模型 。 为 D 中 的 边 分 配方 向 的 一 种 
方法 是 对 随机 变量 排序 ， 然 后 将 每 个 边 从 排序 较 早 的 节点 指向 排序 稍 后 的 节点 。 一 
个 简单 的 实例 可 以 参考 图 16.12 。 


A 
56 OS HE 


图 16.12: 将 一 个 无 向 模型 转化 为 一 个 有 向 模型 。( 左 ) 这 个 无 向 模型 无 法 转化 为 有 向 模型 ， 因 为 它 
有 一 个 长 度 为 4 且 不 带 有 弦 的 环 。 有 具体 说 来 ， 这 个 无 向 模型 包含 了 两 种 不 同 的 独立 性 ， 并 且 不 存 
在 一 个 有 向 模型 可 以 同时 描述 这 两 种 性 质 : a Lc | {b,d} Alb 1d | {a,c} (F) 为 了 将 无 向 图 
转化 为 有 向 图 ， 我 们 必须 通过 保证 所 有 长 度 大 于 3 的 环 都 有 弦 来 三 角形 化 图 。 为 了 实现 这 个 目标 ， 
我 们 可 以 加 一 条 连接 a 和 e 或 者 连接 b 和 d 的 边 。 在 这 个 例子 中 ， 我 们 选择 添加 一 条 连接 a M c 
的 边 。( 右 ) 为 了 完成 转化 的 过 程 ， 我 们 必须 给 每 条 边 分 配 一 个 方向 。 执 行 这 个 任务 时 ， 我 们 必须 
保证 不 产生 任何 有 向 环 。 避 免 出 现 有 向 环 的 一 种 方法 是 赋予 节点 一 定 的 顺序 ， 然 后 将 每 个 边 从 排 
序 较 早 的 节点 指向 排序 稍 后 的 节点 。 在 这 个 例子 中 ,我 们 根据 变量 名 的 字母 进行 排序 。 




































































16.2.7 AFA 


因子 图 (factor graph ) 是 从 无 向 模型 中 抽样 的 另 一 种 方法 ， 它 可 以 解决 标准 无 
向 模型 语法 中 图 表达 的 模糊 性 。 在 无 向 模型 中 ， 每 个 $ 函数 的 范围 必须 是 图 中 某 
个 团 的 子 集 。 我 们 无 法 确定 每 一 个 团 是 否 含有 一 个 作用 域 包含 整 个 团 的 因子 一 一 比 
如 说 一 个 包含 三 个 结 点 的 团 可 能 对 应 的 是 一 个 有 三 个 结 点 的 因子 ， 也 可 能 对 应 的 是 
三 个 因子 并 且 每 个 因子 包含 了 一 对 结 点 ， 这 通常 会 导致 模糊 性 。 通 过 显 式 地 表示 每 
一 个 乡 函 数 的 作用 域 , 因子 图 解决 了 这 种 模糊 性 。 具体 来 说 , 因子 图 是 一 个 包含 无 向 
二 分 图 的 无 向 模型 的 图 形 化 表示 。 一 些 节 点 被 绘制 为 圆 形 。 就 像 在 标准 无 向 模型 中 
一 样 ， 这 些 节点 对 应 于 随机 变量 。 其 余 节 点 绘制 为 方块 。 这 些 节点 对 应 于 未 归 一 化 
概率 函数 的 因子 %。 变 量 和 因子 可 以 通过 无 向 边 连 接 。 当 且 仅 当 变量 包含 在 未 归 一 
化 概率 函数 的 因子 中 时 ， 变 量 和 因子 在 图 中 存在 连接 。 没 有 因子 可 以 连接 到 图 中 的 
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另 一 个 因子 ， 也 不 能 将 变量 连接 到 变量 。 图 16.2.7 给 出 了 一 个 例子 来 说 明 因子 图 如 
何 解决 无 向 网 络 中 的 模糊 性 。 


99 
OY © 


图 16.13: 因子 图 如 何 解决 无 向 网 络 中 的 模糊 性 的 一 个 例子 。( 左 ) 一 个 包含 三 个 变量 (a、b 和 c) 
的 团 组 成 的 无 向 网 络 。( 中 ) 对 应 这 个 无 向 模型 的 因子 图 。 这 个 因子 图 有 一 个 包含 三 个 变量 的 因子 。 
(E) 对 应 这 个 无 向 模型 的 另 一 种 有 效 的 因子 图 。 这 个 因子 图 包含 了 三 个 因子 ， 每 个 因子 只 对 应 两 
个 变量 。 即 使 它们 表示 的 是 同一 个 无 向 模型 ， 这 个 因子 图 上 进行 的 表示 、 推 断 和 学 习 相 比 于 中 图 
描述 的 因子 图 都 要 渐 近 地 廉价 。 






























































16.3 ”从 图 模型 中 采样 


图 模型 同样 简化 了 从 模型 中 采样 的 过 程 。 

有 向 图 模型 的 一 个 优点 是 ， 可 以 通过 一 个 简单 高 效 的 过 程 从 模型 所 表示 的 联合 
分 布 中 产生 样本 ， 这 个 过 程 被 称 为 原始 采样 ( Ancestral Sampling )。 

原始 采样 的 基本 思想 是 将 图 中 的 变量 x; 使 用 拓扑 排序 , 使 得 对 于 所 有 i 和 7, 如 
Ke x; 是 x; 的 一 个 父亲 结 点 ， 则 了 大 于 i. 然后 可 以 按 此 顺序 对 变量 进行 采样 。 换 句 
话说 ， 我 们 可 以 首先 采 xı ~ Phx), WER x: ~ P(x | Pao (x2))， 以 此 类 推 ， 直 到 
最 后 我 们 从 P(x, | Pag(Xn)) 中 采样 。 只 要 不 难 从 每 个 条 件 分 布 x; ~ P(x; | Pag (xi)) 
中 采样 ， 那 么 从 整个 模型 中 采样 也 是 容易 的 。 拓 扑 排序 操作 保证 我 们 可 以 按照 
式 (16.1) 中 条 件 分 布 的 顺序 依次 采样 。 如 果 没 有 拓扑 排序 ， 我 们 可 能 会 在 其 父 节 点 
可 用 之 前 试图 对 该 变量 进行 抽样 。 

有 些 图 可 能 存在 多 个 拓扑 排序 。 原 始 采 样 可 以 使 用 这 些 拓扑 排序 中 的 任何 一 个 。 

原始 采样 通常 非常 快 (假设 从 每 个 条 件 分 布 中 采样 都 是 很 容易 的 ) 并 且 非 常 简 
便 。 

原始 采样 的 一 个 缺点 是 其 仅 适 用 于 有 向 图 模型 。 另 一 个 缺点 是 它 并 不 是 每 次 采 
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样 都 是 条 件 采 样 操作 。 当 我 们 希望 从 有 向 图 模型 中 变量 的 子 集 中 采样 时 ， 给 定 一 些 
其 他 变量 ， 我 们 经 常 要求 所 有 给 定 的 条 件 变量 在 顺序 图 中 比 要 采样 的 变量 的 顺序 要 
早 。 在 这 种 情况 下 ,我 们 可 以 从 模型 分 布 指定 的 局 部 条 件 概率 分 布 中 采样 。 否则 ,我 
们 需要 采样 的 条 件 分 布 是 给 定 观测 变量 的 后 验 分 布 。 这 些 后 验 分 布 在 模型 中 通常 没 
有 明确 指定 和 参数 化 。 推 断 这 些 后 验 分 布 的 代价 可 能 是 很 高 的 。 在 这 种 情况 下 的 模 
型 中 ， 原 始 采样 不 再 有 效 。 

不 幸 的 是 ， 原 始 采样 仅 适 用 于 有 向 模型 。 我 们 可 以 通过 将 无 向 模型 转换 为 有 向 
模型 来 实现 从 无 向 模型 中 抽样 ， 但 是 这 通常 需要 解决 环 手 的 推断 问题 (要 确定 新 有 
向 图 的 根 节点 上 的 边缘 分 布 )， 或 者 需要 引入 许多 边 从 而 会 使 得 到 的 有 向 模型 变 得 难 
以 处 理 。 从 无 向 模型 采样 ， 而 不 首先 将 其 转换 为 有 向 模型 的 做 法 似乎 需要 解决 循环 
依赖 的 问题 。 每 个 变量 与 每 个 其 他 变量 相互 作用 ， 因 此 对 于 采样 过 程 没有 明确 的 起 
点 。 不幸 的 是 ， 从 无 向 模型 中 抽取 样本 是 一 个 成 本 很 高 的 多 次 迭代 的 过 程 。 理 论 上 
最 简单 的 方法 是 Gibbs 采样 (Gibbs Sampling )。 假 设 我 们 在 一 个 n 维 向 量 的 随机 
变量 x 上 有 一 个 图 模型 。 我 们 迭代 地 访问 每 个 变量 x;， 在 给 定 其 他 变量 的 条 件 下 从 
p(xi | x—i) 中 抽样 。 由 于 图 模型 的 分 离 性 质 ， 抽取 x; 时 我 们 可 以 等 价 地 仅 对 x 的 邻 
居 条 件 化 。 不 幸 的 是 ， 在 我 们 遍历 图 模型 一 次 并 采样 所 有 on 个 变量 之 后 ， 我 们 仍然 
无 法 得 到 一 个 来 自 p(x) 的 客观 样本 。 相 反 ， 我 们 必须 重复 该 过 程 并 使 用 它们 邻居 的 
更 新 值 对 所 有 n 个 变量 重新 取样 。 在 多 次 重复 之 后 ， 该 过 程 浙 近 地 收敛 到 正确 的 目 
标 分 布 。 我 们 很 难 确定 样本 何 时 达到 所 期 望 分 布 的 足够 精确 的 近似 。 无 向 模型 的 采 
样 技 术 是 一 个 高 级 的 研究 方向 ， 第 十 七 章 将 对 此 进行 更 详细 的 讨论 。 





























16.4 ”结构 化 建 模 的 优势 


使 用 结构 化 概率 模型 的 主要 优点 是 它们 能 够 显著 降低 表示 概率 分 布 、 学 习 和 推 
断 的 成 本 。 有 向 模型 中 采样 还 可 以 被 加 速 ， 但 是 对 于 无 向 模型 情况 则 较为 复杂 。 选 
择 不 对 某 些 变量 的 相互 作用 进行 建 模 是 允许 所 有 这 些 操作 使 用 较 少 的 运行 时 间 和 内 
存 的 主要 机 制 。 图 模型 通过 省 略 某 些 边 来 传达 信息 。 在 没有 边 的 情况 下 ， 模 型 假设 
不 对 变量 间 直 接 的 相互 作用 建 模 。 

结构 化 概率 模型 允许 我 们 明确 地 将 给 定 的 现 有 知识 与 知识 的 学 习 或 者 推断 分 开 ， 
这 是 一 个 不 容易 量化 的 益处 。 这 使 我 们 的 模型 更 容易 开发 和 调试 。 我们 可 以 设计 、 
分 析 和 评估 适用 于 更 广 范围 的 图 的 学 习 算 法 和 推断 算法 。 同 时 ， 我 们 可 以 设计 能 够 
捕 提 到 我 们 认为 数据 中 存在 的 重要 关系 的 模型 。 然 后 ， 我 们 可 以 组 合 这 些 不 同 的 算 





ww ai bbt.com DODDDDODOD 


dourbz/350DFo 


16.5 学 习 依 赖 关系 495 


法 和 结构 ， 并 获得 不 同 可 能 性 的 笛 卡 尔 乘积 。 然 而 ， 为 每 种 可 能 的 情况 设计 端 到 端 
的 算法 会 更 加 困难 。 


16.5 ”学习 依赖 关系 


良好 的 生成 模型 需要 准确 地 捕获 所 观察 到 的 或 “可 见 ” 变 量 v 上 的 分 布 。 通 常 
v 的 不 同 元 素 彼此 高 度 依 赖 。 在 深度 学 习 中 ， 最 常用 于 建 模 这 些 依赖 关系 的 方法 是 
引入 几 个 潜在 或 “隐藏 ”变量 h。 然 后 ， 该 模型 可 以 捕获 任何 对 (变量 w 和 vj 间 
接 依赖 可 以 通过 v; 和 h 之 间 直 接 依赖 和 v 和 hy 直接 依赖 捕获 ) 之 间 的 依赖 关系 。 

如 果 一 个 良好 的 关于 v 的 模型 不 包含 任何 潜 变 量 ， 那 么 它 在 贝 叶 斯 网 络 中 的 每 
个 节点 需要 具有 大 量 父 节点 或 在 马尔 可 夫 网 络 中 具有 非常 大 的 团 。 仅 仅 表示 这 些 高 
阶 相互 作用 的 成 本 就 很 高 了 ， 首 先 从 计算 角度 上 考虑 ， 存 储 在 存储 器 中 的 参数 数量 
是 团 中 成 员 数 量 的 指数 级 别 ， 接 着 在 统计 学 意义 上 ， 因 为 这 些 指 数 数量 的 参数 需要 
大 量 的 数据 来 准确 估计 。 

当 模 型 由 在 描述 直接 连接 的 可 见 变 量 之 间 的 依赖 关系 时 ， 通 常 不 可 能 连接 所 有 
变量 ， 因 此 设计 图 模型 时 需要 连接 那些 紧密 相关 的 变量 ， 并 忽略 其 他 变量 之 间 的 
作用 。 机 器 学 习 中 有 一 个 称 为 结构 学 习 (structure learning) 的 领域 专门 讨论 这 个 
问题 。Koller and Friedman (2009) 是 一 个 不 错 的 结构 学 习 参 考 资料 。 大 多 数 结构 学 
习 技术 基于 一 种 贪 焚 搜 索 的 形式 。 它 们 提出 了 一 种 结构 ， 对 具有 该 结构 的 模型 进行 
训练 ,然后 给 出 分 数 。 该 分 数 奖励 训练 集 上 的 高 精度 并 对 模型 的 复杂 度 进行 惩罚 。 然 
后 提出 添加 或 移 除 少量 边 的 候选 结构 作为 搜索 的 下 一 步 。 搜 索 向 一 个 预计 会 增加 分 
数 的 新 结构 发 展 。 

使 用 潜 变 量 而 不 是 自 适应 结构 避免 了 离散 搜索 和 多 轮训 练 的 需要 。 可 见 变 量 
和 潜 变 量 之 间 的 固定 结构 可 以 使 用 可 见 单元 和 隐藏 单元 之 间 的 直接 作用 ， 从 而 建 模 
可 见 单 元 之 间 的 间接 作用 。 使 用 简单 的 参数 学 习 技 术 ， 我 们 可 以 学 习 到 一 个 具有 固 
定 结构 的 模型 ， 这 个 模型 在 边缘 分 布 p(v) 上 拥有 正确 的 结构 。 

潜 变 量 除 了 发 挥 本 来 的 作用 ， 即 能 够 高 效 地 描述 p(v) 以 外 ， 还 具有 另外 的 优 
势 。 新 变量 h 还 提供 了 v 的 替代 表示 。 例 如 ， 如 第 3.9.6 节 所 示 ， 高 斯 混合 模型 学 习 
了 一 个 潜 变 量 ， 这 个 潜 变 量 对 应 于 输入 样本 是 从 哪 一 个 混合 体 中 抽出 。 这 意味 着 高 
斯 混合 模型 中 的 潜 变 量 可 以 用 于 做 分 类 。 我 们 可 以 看 到 第 十 四 章 中 简单 的 概率 模型 
如 稀 政 编码 ， 是 如 何 学 习 可 以 用 作 分 类 器 输入 特征 或 者 作为 流 形 上 坐标 的 潜 变 量 的 。 
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其 他 模型 也 可 以 使 用 相同 的 方式 ， 但 是 更 深 的 模型 和 具有 多 种 相互 作用 方式 的 模型 
可 以 获得 更 丰富 的 输入 描述 。 许 多 方法 通过 学 习 潜 变量 来 完成 特征 学 习 。 通 常 ， 给 
定 v 和 hh， 实验 观察 显示 Ejh |v] 或 arg max, p(h, v) 都 是 v 的 良好 特征 映射 。 














16.6 ”推断 和 近似 推断 


解决 变量 之 间 如 何 相 互 关联 的 问题 是 我 们 使 用 概率 模型 的 一 个 主要 方式 。 给 定 
一 组 医学 测试 ， 我 们 可 以 询问 患者 可 能 串 有 什么 疾病 。 在 一 个 潜 变 量 模 型 中 ， 我 们 
可 能 需要 提取 能 够 描述 可 观察 变量 v 的 特征 Efh | vj。 有 时 我 们 需要 解决 这 些 问 题 
来 执行 其 他 任务 。 我 们 经 常 使 用 最 大 似 然 的 准则 来 训练 我 们 的 模型 。 由 于 


log p(v) = En~pnjo) [log p(h, v) — log p(h | v)], (16.9) 


学 习 过 程 中 ， 我 们 经 常 需要 计算 p(h | v)。 所 有 这 些 都 是 推断 (inference) 问题 的 例 
子 ， 其 中 我 们 必须 预测 给 定 其 他 变量 的 情况 下 一 些 变量 的 值 ， 或 者 在 给 定 其 他 变量 
值 的 情况 下 预测 一 些 变量 的 概率 分 布 。 

不 幸 的 是 ， 对 于 大 多 数 有 趣 的 深度 模型 来 说 ， 即 使 我 们 使 用 结构 化 图 模型 来 简 
化 这 些 推断 问题 ， 它 们 仍然 是 难以 处 理 的 。 图 结构 允许 我 们 用 合理 数量 的 参数 来 表 
示 复 杂 的 高 维 分 布 , 但 是 用 于 深度 学 习 的 图 并 不 满足 这 样 的 条 件 ， 从 而 难以 实现 高 
效 地 推断 。 

我 们 可 以 直接 看 出 ， 计 算 一 般 图 模型 的 边缘 概率 是 #P-hard 的 。 复 杂 性 类 别 
#P 是 复杂 性 类 别 NP 的 泛 化 。NP 中 的 问题 只 需 确 定 其 中 一 个 问题 是 否 有 解决 方 
案 ， 并 找到 一 个 解决 方案 ( 如 果 存 在 ) 就 可 以 解决 。#P 中 的 问题 需要 计算 解决 方案 
的 数量 。 为 了 构建 最 坏 情 况 的 图 模型 ， 我 们 可 以 设想 一 下 我 们 在 3-SAT 问题 中 定义 
二 值 变 量 的 图 模型 。 我 们 可 以 对 这 些 变量 施加 均匀 分 布 。 然 后 我 们 可 以 为 每 个 子 名 
添加 一 个 三 值 潜 变 量 ,来 表示 每 个 子 句 是 否 成 立 。 然 后 ,我们 可 以 添加 男 一 个 潜 变 
量 ， 来 表示 所 有 子 句 是 否 成 立 。 这 可 以 通过 构造 一 个 潜 变 量 的 缩减 树 来 完成 ， 树 中 
的 每 个 结 点 表示 其 他 两 个 变量 是 否 成 立 ， 从 而 不 需要 构造 一 个 大 的 团 。 该 树 的 叶 是 
每 个 子 名 的 变量 。 树 的 根 表示 整个 问题 是 否 成 立 。 由 于 子 句 的 均匀 分 布 ， 缩 减 树 根 
结 点 的 边缘 分 布 表示 子 句 有 多 少 比 例 是 成 立 的 。 虽 然 这 是 一 个 设计 的 最 坏 情 况 的 例 
子 ，NP-hard 图 确实 会 频繁 地 出 现在 现实 世界 的 场景 中 。 

这 促使 我 们 使 用 近似 推断 。 在 深度 学 习 中 ， 这 通常 涉及 变 分 推 新 ， 其 中 通过 寻 
求 尽 可 能 接近 真实 分 布 的 近似 分 布 g(h | v) 来 通 近 真实 分 布 p(h | v)。 这 个 技术 将 在 


















































ww ai bbt.com DODDDDODOD 


dourbz/350DFo 


16.7 结构 化 概率 模型 的 深度 学 习 方法 497 


第 十 九 章 中 深入 讨论 。 


16.7 ”结构 化 概率 模型 的 深度 学 习 方法 


深度 学 习 从 业者 通常 与 其 他 从 事 结构 化 概率 模型 研究 的 机 器 学 习 研究 者 使 用 相 
同 的 基本 计算 工具 。 然 而 ， 在 深度 学 习 中 ， 我 们 通常 对 如 何 组 合 这 些 工具 作出 不 同 
的 设计 决定 ， 导 致 总 体 算法 、 模 型 与 更 传统 的 图 模型 具有 非常 不 同 的 风格 。 

深度 学 习 并 不 总 是 涉及 特别 深 的 图 模型 。 在 图 模型 中 ， 我 们 可 以 根据 图 模型 的 
图 而 不 是 计算 图 来 定义 模型 的 深度 。 如 果 从 潜 变 量 万 到 可 观察 变量 的 最 短路 径 是 j 
D, 我们 可 以 认为 潜 变 量 hy 处 于 深度 j。 我 们 通常 将 模型 的 深度 描述 为 任何 这 样 的 
h; 的 最 大 深度 。 这 种 深度 不 同 于 由 计算 图 定义 的 深度 。 用 于 深度 学 习 的 许多 生成 模 
型 没有 潜 变 量 或 只 有 一 层 潜 变 量 ， 但 使 用 深度 计算 图 来 定义 模型 中 的 条 件 分 布 。 

深度 学 习 基 本 上 总 是 利用 分 布 式 表示 的 思想 。 即 使 是 用 于 深度 学 习 目 的 的 浅 层 
模型 ( 例如 预 训练 浅 层 模型 ， 稍 后 将 形成 深层 模型 )， 也 几乎 总 是 具有 单个 大 的 潜 变 
量 层 。 深 度 学 习 模 型 通常 具有 比 可 观察 变量 更 多 的 潜 变量 。 变 量 之 间 复杂 的 非 线性 
相互 作用 通过 多 个 潜 变量 的 间接 连接 来 实现 : 

相 比 之 下 ， 传 统 的 图 模型 通常 包含 至 少 是 偶尔 观察 到 的 变量 ， 即 使 一 些 训练 样 
本 中 的 许多 变量 随机 地 丢失 。 传 统 模型 大 多 使 用 高 阶 项 和 结构 学 习 来 捕获 变量 之 间 
复杂 的 非 线 性 相互 作用 。 如 果 有 潜 变 量 ， 它 们 的 数量 通常 很 少 。 

潜 变 量 的 设计 方式 在 深度 学 习 中 也 有 所 不 同 。 深 度 学 习 从 业者 通常 不 希望 潜 变 
量 提前 包含 了 任何 特定 的 含义 一 一 训练 算法 可 以 自由 地 开发 对 特定 数据 集 建 模 所 需 
要 的 概念 。 在 事后 解释 潜 变 量 通 常 是 很 困难 的 ， 但 是 可 视 化 技术 可 以 得 到 它们 表示 
的 一 些 粗略 表征 。 当 潜 变 量 在 传统 图 模型 中 使 用 时 ， 它 们 通常 被 赋予 一 些 特定 含义 
一 一 比如 文档 的 主题 、 学 生 的 智力 、 导 致 患者 症状 的 疾病 等 。 这 些 模型 通常 由 研究 
者 解释 ， 并 且 通 常 具有 更 多 的 理论 保证 ， 但 是 不 能 扩展 到 复杂 的 问题 ， 并 且 不 能 像 
深度 模型 一 样 在 许多 不 同 背 景 中 重复 使 用 。 

另 一 个 明显 的 区 别 是 深度 学 习 方 法 中 经 常 使 用 的 连接 类 型 。 深 度 图 模型 通常 具 
有 大 的 与 其 他 单元 组 全 连接 的 单元 组 ， 使 得 两 个 组 之 间 的 相互 作用 可 以 由 单个 矩阵 
描述 。 传 统 的 图 模型 具有 非常 少 的 连接 ， 并 且 每 个 变量 的 连接 选择 可 以 单独 设计 。 
模型 结构 的 设计 与 推断 算法 的 选择 紧密 相关 。 图 模型 的 传统 方法 通常 则 在 保持 精确 
推断 的 可 解 性 。 当 这 个 约束 太 强 时 ， 我 们 可 以 采用 一 种 流行 的 被 称 为 环 状 信念 传播 
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(loopy belief propagation ) 的 近似 推断 算法 。 这 两 种 方法 通常 在 稀 琉 连接 图 上 都 有 
很 好 的 效果 。 相 比 之 下 ， 在 深度 学 习 中 使 用 的 模型 倾向 于 将 每 个 可 见 单元 vi 连接 到 
非常 多 的 隐藏 单元 by 上 ， 从 而 使 得 h 可 以 获得 一 个 vi 的 分 布 式 表示 ( 也 可 能 是 其 
他 几 个 可 观察 变量 )。 分 布 式 表示 具有 许多 优点 ， 但 是 从 图 模型 和 计算 复杂 性 的 观点 
来 看 ， 分 布 式 表示 有 一 个 缺点 就 是 很 难产 生 对 于 精确 推 新 和 环 状 信念 传播 等 传统 技 
术 来 说 足够 稀 跑 的 图 。 结 果 ， 大 规模 图 模型 和 深度 图 模型 最 大 的 区 别 之 一 就 是 深度 
学 习 中 几乎 从 来 不 会 使 用 环 状 信念 传播 。 相 反 的 ， 许 多 深度 学 习 模 型 可 以 设计 来 加 
速 Gibbs 采样 或 者 变 分 推断 。 此 外 ， 深 度 学 习 模 型 包含 了 大 量 的 潜 变 量 ， 使 得 高 效 
的 数值 计算 代码 显得 格外 重要 。 除 了 选择 高 级 推断 算法 之 外 ,， 这 提供 了 另外 的 动机 ， 
用 于 将 结 点 分 组 成 层 ， 相 邻 两 层 之 间 用 一 个 和 矩阵 来 描述 相互 作用 。 这 要 求实 现 算 法 
的 单个 步骤 可 以 实现 高 效 的 矩阵 乘积 运算 ,或 者 专门 适用 于 稀 玖 连接 的 操作 ， 例 如 
块 对 角 和 矩阵 乘积 或 卷 积 。 

最 后 ， 图 模型 的 深度 学 习 方 法 的 一 个 主要 特征 在 于 对 未 知 量 的 较 高 容忍 度 。 与 
简化 模型 直到 它 的 每 一 个 量 都 可 以 被 精确 计算 不 同 的 是 ， 我 们 仅仅 直接 使 用 数据 运 
行 或 者 是 训练 ， 以 增强 模型 的 能 力 。 我 们 一 般 使 用 边缘 分 布 不 能 计算 的 模型 ， 但 可 
以 从 中 简单 地 采 近 似 样 本 。 我 们 经 常 训练 具有 难以 处 理 的 目标 函数 的 模型 ， 我 们 甚 
至 不 能 在 合理 的 时 间 内 近似 ， 但 是 如 果 我 们 能 够 高 效 地 获得 这 样 一 个 函数 的 梯度 佑 
计 ， 我 们 仍然 能 够 近似 训练 模型 。 深 度 学 习 方 法 通 稼 是 找 出 我 们 绝对 需要 的 最 小 量 
信息 ， 然 后 找 出 如 何 尽 快 得 到 该 信息 的 合理 近似 。 




















16.7.1 “实例 : 受 限 玻 尔 将 曼 机 


FIRER StL (Restricted Boltzmann Machine, RBM ) (Smolensky, 1986) 或 
者 得 风琴 (harmonium ) 是 图 模型 如 何 用 于 深度 学 习 的 典型 例子 。RBM 本 身 不 是 一 
个 深层 模型 。 相 反 ， 它 有 一 层 潜 变 量 ,， 可 用 于 学 习 输 入 的 表示 。 在 第 二 十 章 中 ,我 们 
将 看 到 RBM 如 何 被 用 来 构建 许多 的 深层 模型 。 在 这 里 ， 我 们 举例 展示 了 RBM 在 
许多 深度 图 模型 中 使 用 的 实践 : 它 的 单元 被 分 成 很 大 的 组 ， 这 种 组 称 作 层 ， 层 之 间 
的 连接 由 矩阵 描述 ， 连 通 性 相对 密集 。 该 模型 被 设计 为 能 够 进行 高 效 的 Gibbs KE, 
并 且 模 型 设计 的 重点 在 于 以 很 高 的 自由 度 来 学 习 潜 变量 ， 而 潜 变 量 的 含义 并 不 是 设 
计 者 指定 的 。 之 后 在 第 20.2 节 ， 我 们 将 更 详细 地 再 次 讨论 RBM. 

标准 的 RBM 是 具有 二 值 的 可 见 和 隐藏 单元 的 基于 能 量 的 模型 。 其 能 量 函 数 为 

E(v,h) = —b'v—c'h—v' Wh, (16.10) 
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其 中 b,c 和 W 都 是 无 约束 、 实 值 的 可 学 习 参 数 。 我 们 可 以 看 到 ， 模 型 被 分 成 两 组 
单元 : v 和 h， 它 们 之 间 的 相互 作用 由 和 矩阵 多 来 描述 。 该 模型 在 图 16.14 中 以 图 的 
形式 描绘 。 该 图 能 够 使 我 们 更 清楚 地 发 现 ， 该 模型 的 一 个 重要 方面 是 在 任何 两 个 可 
见 单元 之 间或 任何 两 个 隐藏 单元 之 间 没 有 直接 的 相互 作用 ( 因此 称 为 “ 受 限 ”， 一 般 
的 玻 尔 效 曼 机 可 以 具有 任意 连接 )。 











图 16.14: 一 个 画 成 马尔 可 夫 网 络 形式 的 RBM。 





对 RBM 结构 的 限制 产生 了 良好 的 属性 


plh|v)= [J ph |v) (16.11) 
以 及 
pv | h) = [p(w |b). (16.12) 
独立 的 条 件 分 布 很 容易 计算 。 对 于 三 元 的 受 限 玻 尔 效 曼 机 ， 我 们 可 以 得 到 
ph; = 1 |v) =o(v' W.: + bi), (16.13) 
p(hi =0 |v) =1-—o(v' W.: +b). (16.14) 


结合 这 些 属性 可 以 得 到 高 效 的 块 吉 布 斯 采样 (block Gibbs Sampling )， 它 在 同时 采 
FEMA h 和 同时 采样 所 有 v ZEX, RBM 模型 通过 Gibbs 采样 产生 的 样本 展示 
在 图 16.15 中 。 
由 于 能 量 函 数 本 身 只 是 参数 的 线性 函数 ， 很 容易 获取 能 量 函 数 的 导数 。 例 如 ， 
ð 
oW; j 


这 两 个 属性 ,高效 的 Gibbs 采样 和 导数 计算 , 使 训练 过 程 变 得 非常 方便 。 在 第 十 


八 章 中 ,我 们 将 看 到 ， 可 以 通过 计算 应 用 于 这 种 来 自 模型 样本 的 导数 来 训练 无 向 模 
型 。 





E(v,h) 一 —Vih;. (16.15) 
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图 16.15: 训练 好 的 RBM 的 样本 及 其 权重 。( 左 ) 用 MNIST 训练 
采样 。 每 一 列 是 一 个 单独 的 Gibbs 采样 过 程 。 每 一 行 表示 另 一 个 
连续 的 样本 之 间 彼 此 高 度 相关 。[( 右 ) 对 应 的 权重 向 量 。 将 本 图 结 




















模型 ， 然 后 用 Gibbs 采样 进行 
1000 步 后 Gibbs 采样 的 输出 。 
与 图 13.2 中 描述 的 线性 因子 模 





























型 的 样本 和 权重 相 比 。 由 于 RBM 的 先 验 p(h) 没有 限制 为 因子 ， 这 里 的 样本 表现 得 好 很 多 。 采 样 
时 RBM 能 够 学 习 到 哪些 特征 需要 一 起 出 现 。 另 一 方面 说 ,RBM 后 验 p(h |v) SAFH, MRB 























编码 的 后 验 并 不 是 ， 所 以 在 特征 提取 上 稀 玻 编码 模型 表现 得 更 好 。 
p(h) 和 非 因子 的 p(h | 站 。 图 片 经 LISA (2008) 允许 转载 。 


























其 他 的 模型 可 以 使 用 非 因子 的 


训练 模型 可 以 得 到 数据 v 的 表示 ho RIAK Enpo [有 作为 一 组 描述 v 


的 特征 。 
总 的 来 说 ，RBM 展示 了 典型 的 图 模型 深度 学 习 方 法 : 
阵 参 数 化 层 之 间 的 高 效 相互 作用 来 完成 表示 学 习 。 





使 用 多 层 潜 变量 ， 并 由 算 


图 模型 为 描述 概率 模型 提供 了 一 种 优雅 、 灵 活 、 清 晰 的 语言 。 在 未 来 的 章节 中 ， 


我 们 将 使 用 这 种 语言 ， 以 其 他 视角 来 描述 各 种 各 样 的 深度 
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随机 算法 可 以 粗略 地 分 为 两 类 : Las Vegas 算 法 和 蒙特 卡 罗 算 法 。Las Vegas 算 
法 总 是 精确 地 返回 一 个 正确 答案 (或 者 返回 算法 失败 了 )。 这 类 方法 通常 需要 占用 随 
机 量 的 计算 资源 (一 般 指 内 存 或 运行 时 间 )。 与 此 相对 的 ， 蒙 特 卡 罗 方 法 返回 的 答案 
具有 随机 大 小 的 错误 。 花 费 更 多 的 计算 资源 (通常 包括 内 存 和 运行 时 间 ) 可 以 减少 
这 种 错误 。 在 任意 固定 的 计算 资源 下 ， 蒙 特 卡 罗 算 法 可 以 得 到 一 个 近似 解 。 

对 于 机 需 学 习 中 的 许多 问题 来 说 ， 我 们 很 难得 到 精确 的 答案 。 这 类 问题 很 难 用 
精确 的 确定 性 算法 如 Las Vegas 算法 解决 。 取 而 代 之 的 是 确定 性 的 近似 算法 或 蒙特 卡 
罗 近 似 方法 。 这 两 种 方法 在 机 器 学 习 中 都 非常 普遍 。 本 章 主要 关注 蒙特 卡 罗 方 法 。 





17.1 采样 和 蒙特 卡 罗 方 法 


机 噩 学 习 中 的 许多 重要 工具 都 基于 从 某 种 分 布 中 采样 以 及 用 这 些 样本 对 目标 量 
做 一 个 蒙特 卡 罗 佑 计 。 


17.1.1 ”为 什么 需要 采样 ? 


有 许多 原因 使 我 们 希望 从 某 个 分 布 中 采样 。 当 我 们 需要 以 较 小 的 代价 近似 许多 
项 的 和 或 某 个 积分 时 ， 采 样 是 一 种 很 灵活 的 选择 。 有 时 候 ， 我 们 使 用 它 加 速 一 些 很 
费时 却 易于 处 理 的 求 和 估计 ， 就 像 我 们 使 用 小 批量 对 整个 训练 代价 进行 子 采 样 一 样 。 
在 其 他 情况 下 ,我们 需要 近似 一 个 难以 处 理 的 求 和 或 积分 ， 例 如 估计 一 个 无 向 模 
型 中 配 分 函数 对 数 的 梯度 时 。 在 许多 其 他 情况 下 ， 抽 样 实际 上 是 我 们 的 目标 ， 例 如 
我 们 想 训练 一 个 可 以 从 训练 分 布 采样 的 模型 。 


501 
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17.1.2 ”蒙特 卡 罗 采 样 的 基础 


当 无 法 精确 计算 和 或 积分 ( 例如， 和 具有 指数 数量 个 项 ， 且 无 法 被 精确 简化 ) 
时 ， 通 常 可 以 使 用 蒙特 卡 罗 采 样 来 近似 它 。 这 种 想法 把 和 或 者 积分 视 作 某 分 布下 的 
期 望 ， 然 后 通过 估计 对 应 的 平均 值 来 近似 这 个 期 望 。 令 


s = Ñ pla) f(a) = Eslf(x)] (17.1) 


s= | r(a)f(w)da = Elf) (17.2) 
为 我 们 所 需要 估计 的 和 或 者 积分 ， 写 成 期 望 的 形式 ， 是 一 个 关于 随机 变量 x 的 要 
率 分 布 ( 求 和 时 ) 或 者 概率 密度 函数 ( 求 积分 时 
我 们 可 以 通过 从 刀 中 抽取 个 样本 a)... 来 近似 s 并 得 到 一 个 经 验 平均 
m 
AR NY f(a). (17.3) 
i=1 


下 面 几 个 性 质 表 明了 这 种 近似 的 合理 性 。 首 先 很 容易 观察 到 3 AAE m , 
由 于 





























149 | 1 

Esn] = — S EFG®)] = = 》 (17.4) 
i=1 t= 

此 外 ,根据 大 数 定理 (Law of large number )， 如 果 样 本 2 是 独立 同 分 布 的 ,那么 

其 平均 值 几乎 必然 收敛 到 期 望 值 ， 即 


im Sa S8; (17.5) 


只 需要 满足 各 个 单项 的 方差 Var f(s) 有 界 。 详 细 地 说 ， 我 们 考虑 当 n 增 大 时 $, 
的 方差 。 只 要 满足 Var[f(x)] < co， 方 差 Varn] 就 会 减 小 并 收敛 到 0: 


wal j= DD Varlf Go) (17.6) 
_ Varlf eol (17.7) 
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这 个 简单 有 用 的 结果 启迪 我 们 如 何 估计 蒙特 卡 罗 均 值 中 的 不 确定 性 ， 或 者 等 价 地 说 
是 蒙特 卡 罗 估 计 的 期 望 误差 。 我 们 计算 了 f(z 中) 的 经 验 均 值 和 方差 1， 然 后 将 估计 的 
方差 除 以 样本 数 n 来 得 到 Varen] 的 估计 。 中 心 极 限定 理 〈central limit theorem ) 
告诉 我 们 n 的 分 布 收 敛 到 以 s HEE OA 为 方差 的 正 态 分 布 。 这 使 得 我 们 可 
以 利用 正 态 分 布 的 累积 也 数 来 估计 8 的 置信 区 间 。 

以 上 的 所 有 结论 都 依赖 于 我 们 可 以 从 基准 分 布 p(x) 中 轻易 地 采样 ， 但 是 这 个 
假设 并 不 是 一 直 成 立 的 。 当 我 们 无 法 从 p 中 采样 时 ， 一 个 备 选 方案 是 用 第 17.2 THE 
到 的 重要 采样 。 一 种 更 加 通用 的 方式 是 构建 一 个 收敛 到 目标 分 布 的 估计 序列 。 这 就 
是 马尔 可 夫 链 蒙特 卡 罗 方 法 ( 见 第 17.3 节 )。 


17.2 ”重要 采样 


如 方程 (17.2) 所 示 ， 在 蒙特 卡 罗 方 法 中 ， 对 积分 (或 者 和 ) 分 解 ， 确 定 积分 中 哪 
一 部 分 作为 概率 分 布 p(z) 以 及 哪 一 部 分 作为 被 积 的 函数 A(z) ( 我们 感 兴趣 的 是 估 
计 f(a) 在 概率 分 布 p(x) 下 的 期 望 ) 是 很 关键 的 一 步 。p(z)f(z) 不 存在 唯一 的 分 解 ， 
因为 它 总 是 可 以 被 写成 








(17.8) 


在 这 里 ,我们 从 4 分 布 中 采样 ， 然 后 估计 2 在 此 分 布下 的 均值 。 许 多 情况 中 , 我 们 
希望 在 给 定 p 和 了 的 情况 下 计算 某 个 期 望 ， 这 个 问题 既然 是 求 期 望 ， 那 么 很 自然 地 
p 和 f 是 一 种 分 解 选 择 。 然 而 ， 如 果 考 虑 达到 某 给 定 精度 所 需要 的 样本 数量 ， 这 个 
问题 最 初 的 分 解 选择 不 是 最 优 的 选择 。 幸 和 运 的 是 ， 最 优 的 选择 q* 可 以 被 简单 地 推导 
出 来 。 这 种 最 优 的 采样 函数 q* 对 应 所 请 的 最 优 重 要 采样 。 

从 式 (17.8) 所 示 的 关系 中 可 以 发 现 ， 任 意 蒙特 卡 罗 估 计 


,二 一 > f(a) (17.9) 


i=1,a@ ~p 
可 以 被 转化 为 一 个 重要 采样 的 估计 
1 & plat) f(a) 


= - 
n P er q(x) 


(17.10) 














“通常 我 们 会 倾向 于 计算 方差 的 无 偏 估计 ， 它 由 偏差 的 平方 和 除 以 mn 1 而 非 n 得 到 。 
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我 们 可 以 容易 地 发 现 估计 的 期 望 与 q 分 布 无 关 : 




















E [ê;] = Ep[Sp] = s. (17.11) 








然而 ， 重 要 采样 的 方差 可 能 对 q 的 选择 非常 敏感 。 这 个 方差 可 以 表示 为 








5) = Var PEIE) ] 
Var [8,4] = V: | re |/ (17.12) 
方差 想 要 取 到 最 小 值 ，g 需要 满足 
«pa — P) F (2)| 
ra=] (17.13) 


在 这 里 Z 表示 归 一 化 常数 ， 选 择 适 当 的 Z 使 得 q(x) 之 和 或 者 积分 为 1。 一 个 更 好 
的 重要 采样 分 布 会 把 更 多 的 权重 放 在 被 积 函数 较 大 的 地 方 。 事 实 上 ， 当 f(a) 的 正 负 
符号 不 变 时 ，Var[sv] = 0， 这 意味 着 当 使 用 最 优 的 g 分 布 时 ， 只 需要 一 个 样本 就 足 
够 了 。 当 然 ， 这 仅仅 是 因为 计算 % 时 已 经 解决 了 原 问题 。 所 以 在 实践 中 这 种 只 需要 
采样 一 个 样本 的 方法 往往 是 无 法 实现 的 。 

对 于 重要 采样 来 说 任意 q 分 布 都 是 可 行 的 〈 从 得 到 一 个 期 望 上 正确 的 值 的 角度 
来 说 )，g* 指 的 是 最 优 的 9 分布 (从 得 到 最 小 方差 的 角度 上 考虑 )。 从 g 中 采样 往 
往 是 不 可 行 的 ， 但 是 其 他 仍然 能 降低 方差 的 q 的 选择 还 是 可 行 的 。 

另 一 种 方法 是 采用 有 偏重 要 采样 (biased importance sampling )， 这 种 方法 有 
一 个 优势 ， 即 不 需要 归 一 化 的 p 或 4 分 布 。 在 处 理 离 散 变量 时 ， 有 偏重 要 采样 估计 
可 以 表示 为 























ae 1 f(x 9) 
SBIS = a a oP (17.14) 
ee 1 g(a) 
m zi) 
De Her J (2) 
= 2 ED (17.15) 
ys 1 G(a®) )) 
n a) 
wh Seat f(a) 
= = a (17.16) 
int § ia) 


HP p Al g alot p 和 q 的 未 经 归 一 化 的 形式 ， zt? 是 从 分 布 q 中 抽取 的 样本 。 
这 种 估计 是 有 偏 的 ， 因 为 Els] As, RAM n > co 且 方 程 式 (17.14) 的 分 母 收敛 
到 1 时 ， 等 式 才 渐 近 地 成 立 。 所 以 这 一 估计 也 被 称 为 渐 近 无 偏 的 。 
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一 个 好 的 q 分 布 的 选择 可 以 显著 地 提高 蒙特 卡 罗 估 计 的 效率 ， 而 一 个 糟糕 的 g 
分 布 选 择 则 会 使 效率 更 糟糕 。 我 们 回 过 头 来 看 看 方程 式 (17.12) 会 发 现 ， 如 果 存 在 一 
个 4 使 得 POLS 很 大 , 那么 这 个 估计 的 方差 也 会 很 大 。 当 g(a) 很 小 , 而 f(z) 和 pa) 
都 较 大 并 且 无 法 抵消 q 时 , 这 种 情况 会 非常 明显 。d 分 布 经 稼 会 取 一 些 简单 常用 的 分 
布 使 得 我 们 能 够 从 q 分 布 中 容易 地 采样 。 当 z 是 高 维 数据 时 , g 分 布 的 简单 性 使 得 它 
很 难 与 p 或 者 p|f| 相 匹 配 。 当 g(a) > p(z 中 )|f(z 中 | 时 ， 重 要 采样 采 到 了 很 多 无 
用 的 样本 (很 小 的 数 或 零 相 加 )。 另 一 种 相对 少见 的 情况 是 g(a) K p(a)| f(a), 
相应 的 比值 会 非常 大 。 正 因为 后 一 个 事件 是 很 少 发 生 的 ， 这 种 样本 很 难 被 采 到 ， 通 
常 使 得 对 s 的 估计 出 现 了 典型 的 欠 估计 ， 很 难 被 整体 的 过 估计 抵消 。 这 样 的 不 均匀 
情况 在 高 维 数据 屡见不鲜 ， 因 为 在 高 维度 分 布 中 联合 分 布 的 动态 域 可 能 非常 大 。 

尽管 存在 上 述 的 风险 ， 但 是 重要 采样 及 其 变种 在 机 器 学 习 的 应 用 中 仍然 扮演 着 
重要 的 角色 ， 包 括 深度 学 习 算法 。 例 如 ， 重 要 采样 被 应 用 于 加 速 训 练 具有 大 规模 词 
表 的 神经 网 络 语言 模型 的 过 程 中 ( 见 第 12.4.3.3 节 ) 或 者 其 他 有 着 大 量 输出 结 点 的 神 
经 网 络 中 。 此 外 ， 还 可 以 看 到 重要 采样 应 用 于 估计 配 分 函数 (一 个 概率 分 布 的 归 一 
化 常数 )， 详 见 第 18.7 节 ， 以 及 在 深度 有 辐 图 模型 比如 变 分 自 编 码 器 中 估计 对 数 似 然 
( 详 见 第 20.10.3 节 )。 采 用 随机 梯度 下 降 训 练 模 型 参数 时 重要 采样 可 以 用 来 改进 对 代 
价 函数 梯度 的 估计 ， 尤 其 是 分 类 器 这 样 的 模型 ， 其 中 代价 函数 的 大 部 分 代价 来 自 于 
少量 错误 分 类 的 样本 。 在 这 种 情况 下 ， 更 加 频繁 地 抽取 这 些 困难 的 样本 可 以 减 小 梯 
度 估计 的 方差 (Hinton et al., 2006a)。 

















17.3 “马尔 可 夫 链 蒙特 卡 罗 方 法 


在 许多 实例 中 , 我 们 希望 采用 蒙特 卡 罗 方 法 , 然而 往往 又 不 存在 一 种 简单 的 方法 
可 以 直接 从 目标 分 布 pwoaa(x) 中 精确 采样 或 者 一 个 好 的 (方差 较 小 的 ) 重要 采样 分 
布 q(x). 在 深度 学 习 中 ， 当 分 布 pyoqaa(X) 表示 成 无 向 模 型 时 ,这 种 情况 往往 会 发 生 。 
在 这 种 情况 下 ;为 了 从 分 布 pmoaa(x) 中 近似 采样 ,我 们 引入 了 一 种 称 为 马尔 可 夫 链 
(Markov Chain ) 的 数学 工具 。 利 用 马尔 可 夫 链 来 进行 蒙特 卡 罗 估 计 的 这 一 类 算法 被 
称 为 马尔 可 夫 链 蒙特 卡 罗 (Markov Chain Monte Carlo, MCMC ) 方法 。Koller and 
Friedman (2009) 花 了 大 量 篇 帆 来 描述 马尔 可 夫 链 蒙特 卡 罗 算 法 在 机 带 学 习 中 的 应 
用 。MCMC 技术 最 标准 、 最 一 般 的 的 理论 保证 只 适用 于 那些 各 状态 概率 均 不 为 零 的 
模型 。 因 此 ， 这 些 技术 最 方便 的 使 用 方法 是 用 于 从 基于 能 量 的 模型 (Energy-based 
model ) 即 p(x) x exp(—E(ax)) 中 采样 ， 见 第 16.2.4 节 。 在 EBM 的 公式 表述 中 ， 
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一 个 状态 所 对 应 的 概率 都 不 为 零 。 事 实 上 ，MCMC 方法 可 以 被 广泛 地 应 用 在 包含 0 
概率 状态 的 许多 概率 分 布 中 。 然而, 在 这 种 情况 下 ,关于 MCMC 方法 性 能 的 理论 保 
证 只 能 依据 具体 不 同类 型 的 分 布 具 体 分 析 证 明 。 在 深度 学 习 中 ， 我 们 通常 依赖 于 那 
些 一 般 的 理论 保证 ， 其 在 所 有 基于 能 量 的 模型 都 能 自然 成 立 。 

为 了 解释 从 基于 能 量 的 模型 中 采样 困难 的 原因 ， 我 们 考虑 一 个 包含 两 个 变量 
的 EBM 的 例子 , 记 p(a, b) 为 其 分 布 。 为 了 采 a, 我 们 必须 先 从 pla | b) 中 采样 ; 为 
了 采 b, 我 们 又 必须 从 p(b | a) 中 采样 。 这 似乎 成 了 环 手 的 先 有 鸡 还 是 先 有 和 蛋 的 问题 。 
有 向 模 型 避免 了 这 一 问题 因为 它 的 图 是 有 向 无 环 的 。 为 了 完成 原始 采样 ( Ancestral 
Sampling )， 在 给 定 每 个 变量 的 所 有 父 结 点 的 条 件 下 ， 我 们 根据 拓扑 顺序 采样 每 一 个 
变量 ， 这 个 变量 是 确定 能 够 被 采样 的 〈 详 见 第 16.3 节 )。 原 始 采样 定义 了 一 种 高 效 
的 、 单 遍 的 方法 来 抽取 一 个 样本 。 

在 EBM 中 ， 我 们 通过 使 用 马尔 可 夫 链 来 采样 ， 从 而 避免 了 先 有 鸡 还 是 先 有 和 蛋 
的 问题 。 马 尔 可 夫 链 的 核心 思想 是 从 某 个 可 取 任 意 值 的 状态 z 出 发 。 随 着 时 间 的 推 
移 ， 我 们 随机 地 反复 更 新 状态 xro RA z 成 为 了 一 个 从 pla) 中 抽出 的 (非常 接近 ) 
比较 一 般 的 样本 。 在 正式 的 定义 中 ， 马 尔 可 夫 链 由 一 个 随机 状态 x 和 一 个 转移 分 布 
T(x | £) EXM, T(x | £) 是 一 个 概率 分 布 ， 说 明了 给 定 状态 z 的 情况 下 随机 地 
转移 到 x 的 概率 。 运 行 一 个 马尔 可 夫 链 意味 着 根据 转移 分 布 T | 四 采 出 的 值 x 

为 了 给 出 MCMC 方法 为 何 有 效 的 一 些 理论 解释 ， 重 参数 化 这 个 问题 是 很 有 用 
的 。 首 先 我 们 关注 一 些 简单 的 情况 ， 其 中 随机 变量 x 有 可 数 个 状态 。 我 们 将 这 种 状 
态 简 单 地 记 作 正 整数 z。 不 同 的 整数 x 的 大 小 对 应 着 原始 问题 中 z 的 不 同 状 态 。 

接 下 来 我 们 考虑 如 果 并 行 地 运行 无 穷 多 个 马尔 可 夫 链 的 情况 。 不 同 马 尔 可 夫 
链 的 所 有 状态 都 采样 自 某 一 个 分 布 ga (x), 在 这 里 t 表示 消耗 的 时 间 数 。 开 始 时 ,对 
每 个 马尔 可 夫 链 ， 我 们 采用 一 个 分 布 9 来 任意 地 初始 化 ro Zia, qO 与 所 有 之 前 
运行 的 马尔 可 夫 链 有 关 。 我 们 的 目标 是 q(x) KAE p(x). 

因为 我 们 已 经 用 正 整 数 x 重 参数 化 了 这 个 问题 ,我们 可 以 用 一 个 向 量 v 来 描述 
这 个 概率 分 布 9， 














qx =i)= v; (17.17) 


然后 我 们 考虑 更 新 单一 的 马尔 可 夫 链 ， 从 状态 x 到 新 状态 z'。 单 一 状态 转移 到 
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a! 的 概率 可 以 表示 为 


g(a!) = So (a)T a | 2). (17.18) 





根据 状态 为 整数 的 参数 化 设 定 ， 我 们 可 以 将 转移 算 子 T 表示 成 一 个 矩阵 A HE 
阵 4 的 定义 如 下 : 








Aij T(x’ i | X j). (17.19) 


使 用 这 一 定义 , 我 们 可 以 改写 式 (17.18) 。 不 同 于 之 前 使 用 q 和 了 来 理解 单个 状态 的 
更 新 ,我 们 现在 可 以 使 用 v 和 A 来 描述 当 我 们 更 新 时 (并行 运 行 的 ) 不 同 马尔 可 夫 
链 上 整个 分 布 是 如 何 变化 的 : 








v) = AvD, (17.20) 
重复 地 使 用 马尔 可 夫 链 更 新 相当 于 重复 地 与 矩阵 A 相 乘 。 换 言 之 ， 我 们 可 以 认为 这 
一 过 程 就 是 关于 A NAPE: 


v® = Ary, (17.21) 


FEM: A 有 一 种 特殊 的 结构 ， 因 为 它 的 每 一 列 都 代表 一 个 概率 分 布 。 这 样 的 矩阵 
被 称 为 随机 和 矩阵 〈 Stochastic Matrix )。 如 果 对 于 任意 状态 x 到 任意 其 他 状态 z' 存在 
一 个 t 使 得 转移 概率 不 为 0， 那 么 Perron-Frobenius 定理 (Perron, 1907; Frobenius, 
1908) 可 以 保证 这 个 矩阵 的 最 大 特征 值 是 实数 量 大 小 为 1。 我 们 可 以 看 到 所 有 的 特征 
值 随 着 时 间 呈 现 指 数 变 化 : 


v® = (Vdiag(A) V-')'v = Vdiag(r)! Vt. (17.22) 


这 个 过 程 导 致 了 所 有 不 等 于 1 的 特征 值 都 衰减 到 0。 在 一 些 额 外 的 较为 宽松 的 假 
设 下 ,我 们 可 以 保证 矩阵 A 只 有 一 个 对 应 特征 值 为 1 的 特征 向 量 。 所 以 这 个 过 程 
收敛 到 平稳 分 布 ( Stationary Distribution )， 有 时 也 被 称 为 均衡 分 布 Equilibrium 
Distribution )。 收 敛 时 ， 我 们 得 到 

v = Av=v, (17.23) 
这 个 条 件 也 适用 于 收敛 之 后 的 每 一 步 。 这 就 是 特征 向 量 方程 。 作 为 收敛 的 稳定 点 ，v 
一 定 是 特征 值 为 1 所 对 应 的 特征 向 量 。 这 个 条 件 保 证 收敛 到 了 平稳 分 布 以 后 ， 再 重 
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复 转 移 采 样 过 程 不 会 改变 所 有 不 同 马尔 可 夫 链 上 状态 的 分 布 〈 尽 管 转移 算 子 自然 而 
然 地 会 改变 每 个 单独 的 状态 )。 

如 果 我 们 正确 地 选择 了 转移 算 子 TT， 那 么 最 终 的 平稳 分 布 q 将 会 等 于 我 们 所 希 
望 采 样 的 分 布 p。 我 们 会 将 第 17.4 节 介绍 如 何 选择 T, 

可 数 状态 马尔 可 夫 链 的 大 多 数 性 质 可 以 被 推广 到 连续 状态 的 马尔 可 夫 链 中 。 在 
这 种 情况 下 ， 一 些 研 究 者 把 这 种 马尔 可 夫 链 称 为 哈里 斯 链 (Harris Chain )， 但 是 我 
们 将 这 两 种 情况 都 称 为 马尔 可 夫 链 。 通 常 在 一 些 宽 松 的 条 件 下 ， 一 个 带 有 转移 算 子 
的 马尔 可 夫 链 都 会 收敛 到 一 个 不 动 点 ， 这 个 不 动 点 可 以 写成 如 下 形式 : 








g(x’) = Exu T(x |x), (17:24) 














这 个 方程 的 离散 版 本 就 相当 于 重新 改写 方程 式 (17.23) 。 当 x 是 离散 值 时 ， 这 个 期 
望 对 应 着 求 和 ， 而 当 x 是 连续 值 时 ， 这 个 期 望 对 应 的 是 积分 。 

无 论 状态 是 连续 的 还 是 离散 的 ， 所 有 的 马尔 可 夫 链 方法 都 包括 了 重复 、 随 机 地 
更 新 直到 最 后 状态 开始 从 均衡 分 布 中 采样 。 运 行 马尔 可 夫 链 直到 它 达到 均衡 分 布 的 
过 程 通常 被 称 为 马尔 可 夫 链 的 磨合 ( Burning-in ) 过 程 。 在 马尔 可 夫 链 达到 均衡 分 
布 之 后 ， 我 们 可 以 从 均衡 分 布 中 抽取 一 个 无 限 多 数量 的 样本 序列 。 这 些 样本 服从 同 
一 分 布 ， 但 是 两 个 连续 的 样本 之 间 会 高 度 相关 。 所 以 一 个 有 限 的 序列 无 法 完全 表 
达 均 衡 分 布 。 一 种 解决 这 个 问题 的 方法 是 每 隔 ,个 样本 返回 一 个 样本 ， 从 而 使 得 我 
们 对 于 均衡 分 布 的 统计 量 的 估计 不 会 被 MCMC 方 法 的 样本 之 间 的 相关 性 所 干扰 。 所 
以 马尔 可 夫 链 的 计算 代价 很 高 ， 主 要 源 于 达到 均衡 分 布 前 需要 磨合 的 时 间 以 及 在 达 
到 均衡 分 布 之 后 从 一 个 样本 转移 到 男 一 个 足够 无 关 的 样本 所 需要 的 时 间 。 如 果 我 们 
想 要 得 到 完全 独立 的 样本 ,那么 我 们 可 以 同时 并 行 地 运行 多 个 马尔 可 夫 链 。 这 种 方 
法 使 用 了 额外 的 并 行 计算 来 减少 时 延 。 使 用 一 条 马尔 可 夫 链 来 生成 所 有 样本 的 策略 
和 (使 用 多 条 马尔 可 夫 链 ) 每 条 马尔 可 夫 链 只 产生 一 个 样本 的 策略 是 两 种 极端 。 深 
度 学 习 的 从 业者 们 通常 选取 的 马尔 可 夫 链 的 数目 和 小 批量 中 的 样本 数 相近 ， 然 后 从 
这 些 固定 的 马尔 可 夫 链 集合 中 抽取 所 需要 的 样本 。 马 尔 可 夫 链 的 数目 通常 选 为 100。 























这 段 时 间 通 常 被 称 为 混合 时 间 (Mixing Time )。 检 测 一 个 马尔 可 夫 链 是 否 达 到 平衡 
是 很 困难 的 。 我 们 并 没有 足够 完善 的 理论 来 解决 这 个 问题 。 理 论 只 能 保证 马尔 可 夫 
链 会 最 终 收敛 ,但 是 无 法 保证 其 他 。 如 果 我 们 从 和 矩阵 A 作用 在 概率 向 量 v 上 的 角度 
来 分 析 马 尔 可 夫 链 ， 那 么 我 们 可 以 发 现 当 A 除了 单个 1 以 外 的 特征 值 都 趋 于 0 时 ， 
马尔 可 夫 链 混合 成 功 ( 收敛 到 了 均衡 分 布 )。 这 也 意味 着 矩阵 A 的 第 二 大 特征 值 决 
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定 了 马尔 可 夫 链 的 混合 时 间 。 然 而 , 在 实践 中 , 我 们 通常 不 能 真 的 将 马尔 可 夫 链 表示 
成 矩阵 的 形式 。 我 们 的 概率 模型 所 能 够 达到 的 状态 是 变量 数 的 指数 级 别 ， 所 以 表达 
v, A 或 者 4 的 特征 值 是 不 现实 的 。 由 于 以 上 在 内 的 诸多 阻碍 , 我 们 通常 无 法 知道 马 
尔 可 夫 链 是 否 已 经 混合 成 功 。 作 为 将 代 ， 我 们 只 能 运行 一 定量 时 间 马 尔 可 夫 链 直到 
我 们 粗略 估计 这 段 时 间 是 足够 的 ， 然 后 使 用 启发 式 的 方法 来 判断 马尔 可 夫 链 是 否 混 
合成 功 。 这 些 启 发 性 的 算法 包括 了 手动 检查 样本 或 者 衡量 前 后 样本 之 间 的 相关 性 。 











17.4 Gibbs 采样 





目前 为 止 我 们 已 经 了 解 了 如 何 通过 反复 更 新 xz a ~ T(x | e) 从 一 个 分 布 
q(z) 中 采样 。 然 而 我 们 还 没有 介绍 过 如 何 确定 g(x) 是 否 是 一 个 有 效 的 分 布 。 本 书 
中 将 会 描述 两 种 基本 的 方法 。 第 一 种 方法 是 从 已 经 学 习 到 的 分 布 pmoasl 中 推导 出 
了 ,下文 描述 了 如 何 从 基于 能 量 的 模型 中 采样 。 第 二 种 方法 是 直接 用 参数 捅 述 T, 
后 学 习 这 些 参 数 ， 其 平稳 分 布 隐 式 地 定义 了 我 们 所 感 兴趣 的 模型 pnaoau。 我 们 将 在 
第 20.12 市 和 第 20.13 节 中 讨论 第 二 种 方法 的 例子 。 

在 深度 学 习 中 ,我 们 通常 使 用 马尔 可 夫 链 从 定义 为 基于 能 量 的 模型 的 分 布 
pmodel (£) 中 采样 。 在 这 种 情况 下， 我 们 希望 马尔 可 夫 链 的 g(x) 分 布 就 是 pmoael(z)。 
为 了 得 到 所 期 望 的 g(a) 分布 ， 我 们 必须 选取 合适 的 T(z | 四 。 

Gibbs 采样 (Gibbs Sampling ) 是 一 种 概念 简单 而 又 有 效 的 方法 。 它 构造 一 个 
从 pueast(z) 中 采样 的 马尔 可 夫 链 ， 其 中 在 基于 能 量 的 模型 中 从 T(x! | x) 采样 是 通 
过 选择 一 个 变量 x;， 然 后 从 paoaa 中 该 点 关于 在 无 向 图 9 (定义 了 基于 能 量 的 模 
型 结构 ) 中 邻接 点 的 条 件 分 布 中 采样 。 只 要 一 些 变量 在 给 定 相 邻 变量 时 是 条 件 独立 
的 ， 那 么 这 些 变量 就 可 以 被 同时 采样 。 正 如 在 第 16.7.1 节 中 看 到 的 RBM 示例 一 样 ， 
RBM 中 所 有 的 隐藏 单元 可 以 被 同时 采样 ， 因 为 在 给 定 所 有 可 见 单元 的 条 件 下 它们 相 
互 条 件 独立 。 同 样 地 ， 所 有 的 可 见 单元 也 可 以 被 同时 采样 ， 因 为 在 给 定 所 有 隐藏 单 
元 的 情况 下 它们 相互 条 件 独立 。 以 这 种 方式 同时 更 新 许多 变量 的 Gibbs 采样 通常 被 
称 为 块 吉 布 斯 采样 (block Gibbs Sampling )。 

设计 从 pmoaer 中 采样 的 马尔 可 夫 链 还 存在 其 他 备 选 方法 。 比 如 说 ，Metropolis- 
Hastings 算法 在 其 他 领域 中 广泛 使 用 。 不 过 在 深度 学 习 的 无 向 模型 中 ， 我 们 主要 使 
用 Gibbs 采样 ， 很 少 使 用 其 他 方法 。 改 进 采 样 技巧 也 是 一 个 潜在 的 研究 热点 。 
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理想 情况 下 ， 从 设计 好 的 马尔 可 夫 链 中 采 出 的 连续 样本 之 间 是 完全 独立 的 ， 而 且 在 
x 室 间 中 ， 马 尔 可 夫 链 会 按 概率 大 小 访问 许多 不 同 区 域 。 

然而 ，MCMC 方法 采 出 的 样本 可 能 会 具有 很 强 的 相关 性 ， 尤 其 是 在 高 维 的 情况 
下 。 我 们 把 这 种 现象 称 为 慢 混 合 甚 至 混合 失败 。 具 有 缓慢 混合 的 MOCMC 方法 可 以 被 
视 为 对 能 量 函 数 无 意 地 执行 类 似 于 带 噪声 的 梯度 下 降 的 操作 ， 或 者 说 等 价 于 相对 于 
链 的 状态 〈 被 采样 的 随机 变量 ) 依据 概率 进行 噪声 怜 坡 。 (在 马尔 可 夫 链 的 状态 空 
间 中 ) 从 al) 到 oO 该 链 倾向 于 选取 很 小 的 步 长 ， 其 中 能 量 B(x 中) 通常 低 于 或 
者 近似 等 于 能 量 (x?), 倾向 于 向 较 低能 量 的 区 域 移动 。 当 从 可 能 性 较 小 的 状态 
(ERA p(x) 的 典型 样本 拥有 更 高 的 能 量 ) 开始 时 ， 链 趋向 于 逐渐 减少 状态 的 能 量 ， 
并 且 仅 仅 偶尔 移动 到 男 一 个 峰值 。 一 旦 该 链 已 经 找到 低能 量 的 区 域 (例如 ， 如果 变量 
是 图 像 中 的 像素 ， 则 低能 量 的 区 域 可 以 是 同一 对 象 所 对 应 图 像 的 一 个 连通 的 流 形 )， 
我 们 称 之 为 峰值 ， 链 将 倾向 于 围绕 着 这 个 峰值 游 走 ( 按 某 一 种 形式 随机 游 走 )。 它 
时 不 时 会 走出 该 峰值 ， 但 是 结果 通常 会 返回 该 峰值 或 者 ( 如果 找到 一 条 离开 的 路 线 ) 
移 向 另 一 个 峰值 。 问 题 是 对 于 很 多 有 趣 的 分 布 来 说 成 功 的 离开 路 线 很 少 ， 所 以 马尔 
可 夫 链 将 在 一 个 峰值 附近 抽取 远 超 过 需求 的 样本 。 

当 我 们 考虑 Gibbs 采样 算法 ( 见 第 17.4 节 ) 时 ， 这 种 现象 格外 明显 。 在 这 种 情 
况 下 ， 我 们 考虑 在 一 定 步 数 内 从 一 个 峰值 移动 到 一 个 临近 峰值 的 概率 。 决 定 这 个 概 
率 的 是 两 个 峰值 之 间 的 “能 量 障碍 ”的 形状 。 隔 着 一 个 巨大 “能 量 障 碍 ” ( 低 概率 
的 区 域 ) 的 两 个 峰值 之 间 的 转移 概率 是 〈 随 着 能 量 障 碍 的 高 度 ) 指数 下 降 的 ， 如 
图 17.1 所 示 。 当 目标 分 布 有 多 个 高 概率 峰值 并 且 被 低 概率 区 域 所 分 制 ,尤其 当 Gibbs 
采样 的 每 一 步 都 只 是 更 新 变量 的 一 小 部 分 而 这 一 小 部 分 变量 又 严重 依赖 其 他 的 变量 
时 ， 就 会 产生 问题 。 

举 一 个 简单 的 例子 ， 考 虑 两 个 变量 a，b 的 基于 能 量 的 模型 ， 这 两 个 变量 都 是 二 
值 的 ， 取 值 +1 或 者 -1。 如 果 对 某 个 较 大 的 正 数 w, E(a,b) = 一 wab， 那 么 这 个 模 
型 传达 了 一 个 强烈 的 信息 ，a 和 b 有 相同 的 符号 。 当 a = 1 时 用 Gibbs 采样 更 新 bo 
给 定 b 时 的 条 件 分 布 满足 pb = 1 |a = 1) = o(w)。 如 果 w 的 值 很 大 ，sigmoid K 
数 趋 近 于 饱和 ， 那 么 5 也 取 到 1 的 概率 趋 近 于 1。 同 理 ， 如 果 a = -1,， 那么 b 取 
到 —1 的 概率 也 趋 于 1。 根据 模型 Dmoaei(a,b), 两 个 变量 取 一 样 的 符号 的 概率 几乎 相 
等 。 根据 Pmoaela | b)， 两 个 变量 应 该 有 相同 的 符号 。 这 也 意味 着 Gibbs 采样 很 难 会 
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图 17.1: 对 于 三 种 分 布 使 用 Gibbs 采样 所 产生 的 路 径 ， 所 有 的 分 布 马尔 可 夫 链 初始 值 都 设 为 峰 
值 。( 左 ) 一 个 带 有 两 个 独立 变量 的 多 维 正 态 分 布 。 由 于 变量 之 间 是 相互 独立 的 ，Gibbs 采样 混合 得 
很 好 。( 中 ) 变量 之 间 存 在 高 度 相关 性 的 一 个 多 维 正 态 分 布 。 变 量 之 间 的 相关 性 使 得 马尔 可 夫 链 很 
难 混合 。 因 为 每 一 个 变量 的 更 新 需要 相对 其 他 变量 求 条 件 分 布 ， 相 关 性 减 慢 了 马尔 可 夫 链 远离 初 
始点 的 速度 。( 右 ) 峰 值 之 间 间 距 很 大 且 不 在 轴 上 对 齐 的 混合 高 斯 分 布 。Gibbs 采样 混合 得 很 慢 ， 因 
为 每 次 更 新 仅仅 一 个 变量 很 难 跨越 不 同 的 峰值 。 









































改变 这 些 变量 的 符号 。 

在 更 实际 的 间 题 中 ， 这 种 挑战 更 加 艰巨 因为 在 实际 问题 中 我 们 不 能 仅仅 关注 在 
两 个 峰值 之 间 的 转移 ， 更 要 关注 在 多 个 峰值 之 间 的 转移 。 如 果 由 于 峰值 之 间 混 合 困 
难 ， 而 导致 某 几 个 这 样 的 转移 难以 完成 ， 那 么 得 到 一 些 可 靠 的 覆盖 大 部 分 峰值 的 样 
本 集合 的 计算 代价 是 很 高 的 ， 同 时 马尔 可 夫 链 收敛 到 它 的 平稳 分 布 的 过 程 也 会 非常 
缓慢 。 

通过 寻找 一 些 高 度 依赖 变量 的 组 以 及 分 块 同时 更 新 块 (组 ) 中 的 变量 ， 这 个 问 
题 有 时 候 是 可 以 被 解决 的 。 然 而 不 幸 的 是 ， 当 依赖 关系 很 复杂 时 ， 从 这 些 组 中 采样 
的 过 程 从 计算 角度 上 说 是 难以 处 理 的 。 归 根 结 底 ， 马 尔 可 夫 链 最 初 就 是 被 提出 来 解 
决 这 个 问题 ， 即 从 大 量变 量 中 采样 的 问题 。 

在 定义 了 一 个 联合 分 布 poaa(z 及 ) 的 潜 变 量 模型 中 ， 我 们 经 常 通过 交 蔡 地 从 
pnoaa(z| h) 和 Pmoaa(h | 四 中 采样 来 达到 抽 z 的 目的 。 从 快速 混合 的 角度 上 说 , 我 
们 更 希望 pvoaal(h | 2) 有 很 大 的 精 。 然 而 ， 从 学 习 一 个 h 的 有 用 表示 的 角度 上 考虑 ， 
我 们 还 是 希望 h 能 够 包含 z 的 足够 信息 从 而 能 够 较 完 整地 重 构 它 ， 这 意味 h A = 
要 有 非常 高 的 互信 息 。 这 两 个 目标 是 相互 矛盾 的 。 我 们 经 常 学 习 到 能 够 将 x 精确 地 
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编码 为 h 的 生成 模型 ， 但 是 无 法 很 好 混合 。 这 种 情况 在 玻 尔 兹 曼 机 中 经 常 出 现 ， 一 
个 玻 尔 效 曼 机 学 到 的 分 布 越 尖锐 ， 该 分 布 的 马尔 可 夫 链 采样 越 难 混合 得 好 。 这 个 问 
题 在 图 17.2 中 有 所 描述 。 
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图 17.2: 深度 概率 模型 中 一 个 混合 缓慢 问题 的 例证 。 每 张 图 都 是 按照 从 左 到 右 从 上 到 下 的 顺序 的 。 
( 左 ) Gibbs 采样 从 MNIST 数据 集训 练 成 的 深度 玻 尔 效 曼 机 中 采 出 的 连续 样本 。 这 些 连续 的 样本 
之 间 非 常 相似 。 由 于 Gibbs 采样 作用 于 一 个 深度 图 模型 ， 相 似 度 更 多 地 是 基于 语义 而 非 原 始 视觉 
特征 。 但 是 对 于 吉 布 斯 链 来 说 从 分 布 的 一 个 峰值 转移 到 号 一 个 仍然 是 很 困难 的 ， 比 如 说 改变 数字 。 
(Æ) 从 生成 式 对 抗 网 络 中 抽出 的 连续 原始 样本 。 因 为 原始 采样 生成 的 样本 之 间 互 相 独立 ， 所 以 不 
存在 混合 问题 。 译 者 注 : 原 书 此 处 左右 搞 反 了 。 









































当 感 兴趣 的 分 布 对 于 每 个 类 具有 单独 的 流 形 结构 时 ， 所 有 这 些 问 题 都 
使 MCMC 方法 变 得 不 那么 有 用 : 分 布 集中 在 许多 峰值 周围 ， 并 且 这 些 峰 值 由 大 量 高 
能 量 区 域 分 制 我 们 在 许多 分 类 问题 中 直到 的 是 这 种 类 型 的 分 布 ， 由 于 峰值 之 间 混 
合 缓慢 ， 它 将 使 得 MCMC 方法 非常 缓慢 地 收敛 。 


17.5.1 不同 峰值 之 间 通 过 回 火 来 混合 


当 一 个 分 布 有 一 些 陡 峭 的 峰 并 且 被 低 概 率 区 域 包 围 时 ， 很 难 在 分 布 的 不 同 峰 
值 之 间 混 合 。 一 些 加 速 混合 的 方法 是 基于 构造 一 个 概率 分 布 替 代目 标 分 布 ， 这 个 概 
率 分 布 的 峰值 没有 那么 高 ， 峰 值 周围 的 低谷 也 没有 那么 低 。 基 于 能 量 的 模型 为 这 个 
想法 提供 一 种 简单 的 做 法 。 目 前 为 止 , 我 们 一 直 将 基于 能 量 的 模型 描述 为 定义 一 个 
概率 分 布 : 


p(x) x exp(—E(a)). (17.25) 


ww ai bbt.com DOOO000 


elebmer 350DFo 


17.5 不 同 的 峰值 之 间 的 混合 挑战 513 


基于 能 量 的 模型 可 以 通过 添加 一 个 额外 的 控制 峰值 尖锐 程度 的 参数 8 来 加 强 : 





pe(Z) x exp(—BE(a)). (17.26) 


6 参数 可 以 被 理解 为 温度 (temperature ) 的 倒数 ， 反 映 了 基于 能 量 的 模型 的 统计 物 
理学 起 源 。 当 温度 趋 近 于 0 时 ，6 趋 近 于 无 穷 大 ， 此 时 的 基于 能 量 的 模型 是 确定 性 
的 。 当 温度 趋 近 于 无 穷 大 时 ，6 趋 近 于 零 ， 基 于 能 量 的 模型 ( 对 离散 的 z ) 成 了 均匀 
分 布 。 

通常 情况 下 , 在 8 = 1 时 训练 一 个 模型 。 但 我 们 也 可 以 利用 其 他 温度 ， 尤 其 是 
B <1 的 情况 。 回 火 (tempering ) 作为 一 种 通用 的 策略 ， 它 通过 从 6 < 1 模型 中 采 
样 来 实现 在 pi 的 不 同 峰值 之 间 快 速 混合 。 

基于 回 火 转移 (tempered transition ) (Neal, 1994) 的 马尔 可 夫 链 临时 从 高 温 
度 的 分 布 中 采样 使 其 在 不 同 峰值 之 间 混 合 ， 然 后 继续 从 单位 温度 的 分 布 中 采样 。 这 
些 技 巧 被 应 用 在 一 些 模 型 比如 RBM 中 (Salakhutdinov, 2010)。 另 一 种 方法 是 利用 并 
{TEIA (parallel tempering) (Iba, 2001)。 其 中 马尔 可 夫 链 并 行 地 模拟 许多 不 同 温 
度 的 不 同 状态 。 最 高 温度 的 状态 混合 较 慢 ， 相 比 之 下 最 低温 度 的 状态 ， 即 温度 为 1 
时 ， 采 出 了 精确 的 样本 。 转 移 算 子 包括 了 两 个 温度 之 间 的 随机 跳 转 ， 所 以 一 个 高 温 
度 状 态 分 布 模 中 的 样本 有 是 够 大 的 概率 跳 转 到 低温 度 分 布 的 槽 中 。 这 个 方法 也 被 应 
用 到 了 RBM 中 (Desjardins et al., 2010a; Cho et al., 2010a)。 尽 管 回 火 这 种 方法 前 
景 可 期 ， 现 今 它 仍然 无 法 让 我 们 在 采样 复杂 的 基于 能 量 的 模型 中 更 进一步 。 一 个 可 
能 的 原因 是 在 临界 温度 ( critical temperatures ) 时 温度 转移 算 子 必须 设置 得 非常 慢 
( 因为 温度 需要 逐渐 下 降 ) 来 确保 回 火 的 有 效 性 。 





17.5.2 ”深度 也 许 会 有 助 于 混合 


当 我 们 从 潜 变 量 模型 p(h, z) 中 采样 时 ， 我 们 可 以 发 现 如 果 p(h | 四 将 z 编码 
IEK, MAMA ple | h) 中 采样 时 ， 并 不 会 太 大 地 改变 z， 那 么 混合 结果 会 很 粳 
糕 。 解 决 这 个 问题 的 一 种 方法 是 使 得 h 成 为 一 种 将 z 编码 为 h 的 深度 表示 ， 从 而 使 
得 马尔 可 夫 链 在 h 空间 中 更 容易 混合 。 在 许多 表示 学 习 算法 如 自 编 码 器 和 RBM 中 ， 
h 的 边缘 分 布 相 比 于 z 上 的 原始 数据 分 布 ， 通常 表现 为 更 加 均匀 、 更 趋 近 于 单 峰值 。 
或 许可 以 说 ,这 是 因为 利用 了 所 有 可 用 的 表示 空间 并 尽量 减 小 重 构 误差 。 因 为 当 训 
练 集 上 的 不 同样 本 之 间 在 h 空间 能 够 被 非常 容易 地 区 分 时 ， 我 们 也 会 很 容易 地 最 
小 化 重 构 误差 。Bengio et al. (2013a) 观察 到 这 样 的 现象 ， 堆 释 越 深 的 正则 化 自 编 码 
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are RBM, Min h 空间 的 边缘 分 布 越 趋 向 于 均匀 和 发 散 ， 而 且 不 同 峰值 ( 比如 
说 实验 中 的 类 别 ) 所 对 应 区 域 之 间 的 间距 也 会 越 小 。 在 高 层 空间 中 训练 RBM 会 使 
得 Gibbs 采样 在 峰值 间 混 合 得 更 快 。 然 而 ， 如 何 利用 这 种 观察 到 的 现象 来 辅助 训练 
深度 生成 模型 或 者 从 中 采样 仍然 有 待 探索 。 

尽管 存在 混合 的 难点 ， 蒙 特 卡 罗技 术 仍 然 是 一 个 有 用 的 工具 ， 通 常 也 是 最 好 的 
可 用 工具 。 事 实 上 ， 在 遇 到 难以 处 理 的 无 向 模型 中 的 配 分 函数 时 ， 和 蒙特 卡 罗 方 法 仍 
然 是 最 主要 的 工具 ， 这 将 在 下 一 章 详细 阐述 。 
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在 第 16.2.2 节 中 ， 我 们 看 到 许多 概率 模型 (通常 是 无 向 图 模型 ) 由 一 个 未 归 一 
化 的 概率 分 布 B(x, 0) 定义 。 我 们 必须 通过 除 以 配 分 函数 Z(9) 来 归 一 化 D, 以 获得 


一 个 有 效 的 概率 分 布 : 


P(x; 8) = 7 gy P(x: 8). (18.1) 
配 分 函数 是 未 归 一 化 概率 所 有 状态 的 积分 ( 对 于 连续 变量 ) 或 求 和 ( 对 于 离散 变量 ): 
/aaa (18.2) 

或 者 
S p(x): (18.3) 


对 于 很 多 有 趣 的 模型 而 言 ， 以 上 积分 或 求 和 难以 计算 。 

正如 我 们 将 在 第 二 十 革 看 到 的 ， 有 些 深度 学 习 模型 被 设计 成 具有 一 个 易于 处 理 
的 归 一 化 常数 ， 或 被 设计 成 能 够 在 不 涉及 计算 p(x) 的 情况 下 使 用 。 人 然而， 其 他 一 些 
模型 会 直接 面 对 难 以 计算 的 配 分 函数 的 挑战 。 在 本 章 中 ， 我 们 会 介绍 用 于 训练 和 评 
估 那 些 具有 难以 处 理 的 配 分 函数 的 模型 的 技术 。 








18.1 ”对 数 似 然 梯度 


通过 最 大 似 然 学 习 无 向 模型 特别 困难 的 原因 在 于 配 分 函数 依赖 于 参数 。 对 数 似 
然 相对 于 参数 的 梯度 具有 一 项 对 应 于 配 分 函数 的 梯度 : 


Vologp(x;0) = Vo log p(x; 0) — VelogZ(0). (18.4) 
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这 是 机 器 学 习 中 非常 著名 的 正 相 (positive phase ) 和 负 相 (negative phase ) 的 
分 解 。 
对 于 大 多 数 感 兴趣 的 无 向 模型 而 言 ， 负 相 是 困难 的 。 没 有 潜 变 量 或 潜 变 量 之 间 
很 少 相 互 作用 的 模型 通常 会 有 一 个 易于 计算 的 正 相 。RBM 的 隐藏 单元 在 给 定 可 见 单 
ie 情况 下 彼此 条 件 独 立 ， 是 一 个 典型 的 具有 简单 正 相 和 困难 负 相 的 模型 。 正 相 计 
i 洪 变 量 之 间 具 有 复杂 相互 作用 的 情况 将 主要 在 第 十 儿 才 讨论。 本 章 主要 





让 我 们 进一步 分 析 log Z 的 梯度 : 





VelogZ (18.5) 
= ve4 (18.6) 
_ Vo zA (18.7) 
- < (18.8) 


对 于 保证 所 有 的 x 都 有 p(x) > 0 的 模型 ， 我 们 可 以 用 exp(log5(x)) 代替 p(x): 














S Vo aye P(x) (18.9) 
fos n A (18.10) 
_ Be log p(x) (18.11) 
= one )Vo log p(x (18.12) 
= Ex p(x) Vo log p(x). (18.13) 











上 述 推导 对 离散 的 z 进行 求 和 ， 对 连续 的 z 进行 积分 也 可 以 得 到 类 似 结果 。 在 
连续 版 本 的 推导 中 ， 使 用 在 积分 符号 内 取 微 分 的 莱 布 尼 兹 法 则 可 以 得 到 等 式 


Vo J Jois- / Vad (18.14) 


该 等 式 只 适用 于 p M Vop(x) 上 的 一 些 特定 规范 条 件 。 在 测度 论 术语 中 ， 这 些 条 件 
是 : (1) 对 每 一 个 9 而 言 , 未 归 一 化 分 布 方 必须 是 z 的 勒 贝 格 可 积 函 数 。(2) 对 于 所 
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有 的 9 和 几乎 所 有 xz， 梯度 Vej(x) 必须 存在 。(3) 对 于 所 有 的 2 和 几乎 所 有 的 x, 
必须 存在 一 个 可 积 函 数 R(z) 使 得 max; |px) < R(z)。 幸 运 的 是 ， 大 多 数 感 兴 
的 机 器 学 习 模 型 都 具有 这 些 性 质 。 

等 式 














Vo log Z = Exnp(x) Vo log p(x) (18.15) 

是 使 用 各 种 蒙特 卡 罗 方 法 近似 最 大 化 (具有 难 计算 配 分 函数 模型 的 ) 似 然 的 基础 。 

蒙特 卡 罗 方 法 为 学 习 无 向 模型 提供 了 直观 的 框架 , 我们 能 够 在 其 中 考虑 正 相 和 负 
相 。 在 正 相 中 ， 我们 增 大 从 数据 中 采样 得 到 的 log5(x)。 在 负 相 中 ,我们 通过 降低 从 
模型 分 布 中 采样 的 log p(x) 来 降低 配 分 函数 。 

在 深度 学 习 文 献 中 ， 经 常会 看 到 用 能 量 函 数 ( 式 (16:7) ) 来 参数 化 logo ŒX 
种 情况 下 ， 正 相 可 以 解释 为 压低 训练 样本 的 能 量 ， 负 相 可 以 解释 为 提高 模型 抽出 的 
样本 的 能 量 ， 如 图 18.1 所 示 。 


18.2 ”随机 最 大 似 然 和 对 比 散 度 


实现 式 (18.15) 的 一 个 朴素 方法 是 ， 每 次 需要 计算 梯度 时 ， 磨 合 随机 初始 化 的 一 
组 马尔 可 夫 链 。 当 使 用 随机 梯度 下 降 进 行 学 习 时 ， 这 意味 着 马尔 可 夫 链 必须 在 每 次 
梯度 步骤 中 磨合 。 这 种 方法 引导 下 的 训练 过 程 如 算法 18.1 所 示 。 内 循环 中 磨合 马尔 
可 夫 链 的 计算 代价 过 高 ， 导 致 这 个 过 程 在 实际 中 是 不 可 行 的 ， 但 是 这 个 过 程 是 其 他 
更 加 实际 的 近似 算法 的 基础 。 

我 们 可 以 将 最 大 化 似 然 的 MCMC 方法 视 为 在 两 种 力 之 间 平 衡 ， 一 种 力 拉 高 数据 
出 现时 的 模型 分 布 ， 一 种 拉 低 模型 采样 出 现时 的 模型 分 布 。 图 18.1 展示 了 这 个 过 程 。 
这 两 种 力 分 别 对 应 最 大 化 log p 和 最 小 化 log 2。 对 于 负 相 会 有 一 些 近 似 方 法 。 这 些 
近似 都 可 以 被 理解 为 使 负 相 更 容易 计算 , 但 是 也 可 能 将 其 推 向 错误 的 位 置 。 

因为 负 相 涉及 到 从 模型 分 布 中 抽样 ， 所 以 我 们 可 以 认为 它 在 找 模型 信任 度 很 高 
的 点 。 因 为 负 相 减少 了 这 些 点 的 概率 , 它们 一 般 被 认为 代表 了 模型 不 正确 的 信念 。 在 
文献 中 , 它们 经 常 被 称 为 “幻觉 ”或 “幻想 粒子 ”。 事实 上 , 负 相 已 经 被 作为 人 类 和 其 
他 动物 做 梦 的 一 种 可 能 解释 (Crick and Mitchison, 1983)。 这 个 想法 是 说 ， 大 脑 维持 
着 世界 的 概率 模型 ， 并 且 在 醒 着 经 历 真 实事 件 时 会 遵循 log5 的 梯度 ， 在 睡觉 时 会 遵 
循 log5 的 负 梯度 最 小 化 log 2， 其 经 历 的 样本 采样 自 当 前 的 模型 。 这 个 视角 解释 了 
具有 正 相 和 人 负 相 的 大 多 数 算法 ,但 是 它 还 没有 被 神经 科学 实验 证 明 是 正确 的 。 在 机 
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算法 18.1 一 种 朴素 的 MCMC 算法 ， 使 用 梯度 上 升 最 大 化 具有 难以 计算 配 分 函数 的 
对 数 似 然 。 
设 步 长 e 为 一 个 小 正 数 。 
设 吉 布 斯 步 数 k 大 到 足以 允许 磨合 。 在 小 图 像 集 上 训练 一 个 RBM 大 致 设 为 100。 
while 不 收敛 do 
从 训练 集中 采 包 含 m 个 样本 {x 中 ,... xO} 的 小 批量 。 
ge +D; Ve log p(x; 0). 
初始 化 m 个 样本 {29,..., 3) 为 随机 值 ( 例如， 从 均匀 或 正 态 分 布 中 采 , 或 
大 致 与 模型 边缘 分 布匹 配 的 分 布 )。 
for i = 1 to k do 
for j = 1 to m do 





x‘) + gibbs_update(x). 
end for 
end for 
geg- +", Vo log p(x; 6) 
0 0+ eg. 


end while 











器 学 习 模 型 中 ， 通 常 有 必要 同时 使 用 正 相 和 负 相 ， 而 不 是 按 不 同时 间 阶 段 分 为 清醒 
和 REM 睡眠 时 期 。 正 如 我 们 将 在 第 19.5 节 中 看 到 的 ， 一 些 其 他 机 器 学 习 算 法 出 于 
其 他 原因 从 模型 分 布 中 采样 ， 这 些 算法 也 能 提供 睡觉 做 梦 的 解释 。 

这 样 理解 学 习 正 相 和 负 相 的 作用 之 后 ， 我 们 设计 了 一 个 比 算法 18.1 计算 代价 更 
低 的 蔡 代 算法 。 简 单 的 MCMSC 算法 的 计算 成 本 主要 来 自 每 一 步 的 随机 初始 化 磨合 马 
尔 可 夫 链 。 一 个 自然 的 解决 方法 是 初始 化 马尔 可 夫 链 为 一 个 非常 接近 模型 分 布 的 分 
布 ， 从 而 大 大 减少 磨合 步 又 。 

对 比 散 度 ( CD， 或 者 是 具有 个 Gibbs 步骤 的 CD-k) 算法 在 每 个 步骤 中 初始 
化 马尔 可 夫 链 为 采样 自 数据 分 布 中 的 样本 (Hinton, 2000, 2010)， 如 算法 18.2 所 示 。 
从 数据 分 布 中 获取 样本 是 计算 代价 最 小 的 , 因为 它们 已 经 在 数据 集中 了 。 初 始 时 , 数 
据 分 布 并 不 接近 模型 分 布 ， 因 此 负 相 不 是 非常 准确 。 幸 和 运 的 是 ， 正 相 仍然 可 以 准确 
地 增加 数据 的 模型 概率 。 进 行 正 相 阶 段 一 段 时 间 之 后 ， 模 型 分 布 会 更 接近 于 数据 分 
布 ， 并 且 负 相 开 始 变 得 准确 。 

当然 ，CD 仍然 是 真实 负 相 的 一 个 近似 。CD 未 能 定性 地 实现 真实 负 相 的 主要 原 
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The positive phase The negative phase 


— Pmodel (x) — Pmodel (x) 


e o Pdata(x) e o Dadata(Z) 














图 18.1: 算法 18.1 角度 的 “ 正 相 ”和 “ 负 相 ”。( 左 ) 在 正 相 中 ， 我 们 从 数据 分 布 中 采样 ， 然 后 推 高 
它们 未 归 一 化 的 概率 。 这 意味 着 概率 越 高 的 数据 点 未 归 一 化 的 概率 被 推 高 得 越 多 。( 右 ) 在 负 相 中 ， 
我 们 从 模型 分 布 中 采样 ， 然 后 压低 它们 未 归 一 化 的 概率 。 这 与 正 相 的 倾向 相反 ， 给 未 归 一 化 的 概 
率 处 处 添加 了 一 个 大 常数 。 当 数据 分 布 和 模型 分 布 相等 时 ， 正 相 推 高 数据 点 和 负 相 压低 数据 点 的 
机 会 相等 。 此 时 ,不 再 有 任何 的 梯度 (期望 上 说 )， 训 练 也 必须 停止 。 

















因 是 ， 它 不 能 抑制 远离 真实 训练 样本 的 高 概率 区 域 。 这 些 区 域 在 模型 上 具有 高 概率 ， 
但 是 在 数据 生成 区 域 上 具有 低 概率 ， 被 称 为 RRRA (spurious modes )。 图 18.2 解 
释 了 这 种 现象 发 生 的 原因 。 基 本 上 ， 除 非 & 非常 大 ， 模 型 分 布 中 远离 数据 分 布 的 峰 
值 不 会 被 使 用 训练 数据 初始 化 的 马尔 可 夫 链 访问 到 。 

Carreira-Perpifian and Hinton (2005) 实验 上 证 明 CD 估计 偏向 于 RBM 和 完全 
可 见 的 玻 尔 兹 曼 机 ， 因 为 它 会 收敛 到 与 最 大 似 然 估 计 不 同 的 点 。 他 们 认为 ， 由 于 偏 
差 较 小 ，CD 可 以 作为 一 种 计算 代价 低 的 方式 来 初始 化 模型 ， 之 后 可 以 通过 计算 代价 
高 的 MCMC 方法 进行 精 调 。Bengio and Delalleau (2009) 表明 ，CD 可 以 被 理解 为 去 
HT E MCMC 梯度 更 新 中 的 最 小 项 ， 这 解释 了 偏差 的 由 来 。 

在 训练 诸如 RBM 的 浅 层 网 络 时 CD 是 很 有 用 的 。 反 过 来 ， 这 些 可 以 堆 和 琶 起 来 初 
始 化 更 深 的 模型 , DBN 或 DBM。 但 是 CD 并 不 直接 有 助 于 训练 更 深 的 模型 。 这 是 
因为 在 给 定 可 见 单元 样本 的 情况 下 ， 很 难 获得 隐藏 单元 的 样本 。 由 于 隐藏 单元 不 包 
括 在 数据 中 ， 所 以 使 用 训练 点 初始 化 无 法 解决 这 个 问题 。 即 使 我 们 使 用 数据 初始 化 
可 见 单元 ， 我 们 仍然 需要 磨合 在 给 定 这 些 可 见 单 元 的 隐藏 单元 条 件 分 布 上 采样 的 马 
尔 可 夫 链 。 


CD 算法 可 以 被 理解 为 惩罚 某 类 模型 ， 这 类 模型 的 马尔 可 夫 链 会 快速 改变 来 自 数 
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算法 18.2 对 比 散 度 算 法 ， 使 用 梯度 上 升 作为 优化 过 程 。 
设 步 长 e 为 一 个 小 正 数 。 
设 吉 布 斯 步 数 k 大 到 足以 让 从 paata 初始 化 并 从 p(x; 9) 采样 的 马尔 可 夫 链 混合 。 
在 小 图 像 集 上 训练 一 个 RBM 大 致 设 为 1-20。 
while 不 收敛 do 
从 训练 集中 采 包 含 m 个 样本 {xO 002 xO} 的 小 批量 。 
g e 4 Di Vo log p(x; 0). 
for i = 1 to m do 





KM HX, 
end for 
for i = 1 to k do 
for j = 1 to m do 
x) + gibbs_ update(X(7)). 
end for 
end for 
geg- i Di Vo log pe; 0). 
0 -0 +g. 


end while 





据 的 输入 。 这 意味 着 使 用 CD 训练 从 某 种 程度 上 说 类 似 于 训练 自 编码 器 。 即 使 CD 佑 
计 比 一 些 其 他 训练 方法 具有 更 大 偏差 .但 是 它 有 助 于 预 训练 之 后 会 堆 芭 起 来 的 浅 层 
模型 。 这 是 因为 堆栈 中 最 早 的 模型 会 受 激励 复制 更 多 的 信息 到 其 潜 变 量 , 使 其 可 用 
于 随后 的 模型 。 这 应 该 更 多 地 被 认为 是 CD 训练 中 经 常 可 利用 的 副产品 ， 而 不 是 主要 
的 设计 优势 。 

Sutskever and Tieleman (2010) 表明 ，CD 的 更 新 方向 不 是 任何 函数 的 梯度 。 这 
使 得 CD 可 能 存在 永久 循环 的 情况 ， 但 在 实践 中 这 并 不 是 一 个 严重 的 问题 。 

另 一 个 解决 CD 中 许多 问题 的 不 同 策略 是 ， 在 每 个 梯度 步骤 中 初始 化 马尔 可 夫 
链 为 先前 梯度 步骤 的 状态 值 。 这 个 方法 首先 被 应 用 数学 和 统计 学 社 群 发 现 ， 命 名 
为 随机 最 大 似 然 (SML ) (Younes, 1998)， 后 来 又 在 深度 学 习 社 群 中 以 名 称 持 续 性 对 
比 散 度 (PCD, 或 者 每 个 更 新 中 具有 个 Gibbs 步 又 的 PCD-k ) 独立 地 被 重新 发 
现 (Tieleman, 2008)。 具 体 可 以 参考 算法 18.3 。 这 种 方法 的 基本 思想 是 ， 只 要 随机 梯 
度 算法 得 到 的 步 长 很 小 ， 那 么 前 一 步 又 的 模型 将 类 似 于 当前 步骤 的 模型 。 因 此 ， 来 
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—  Pmodel (x) 


. o Paata( z) 


p(x) 





图 18.2: 一 个 虚假 模 态 。 说 明 对 比 散 度 (算法 18.2 ) 的 负 相 为 何 无 法 抑制 虚假 模 态 的 例子 。 一 个 虚 
假 模 态 指 的 是 一 个 在 模型 分 布 中 出 现 数据 分 布 中 却 不 存在 的 模式 。 由 于 对 比 散 度 从 数据 点 中 初始 
化 它 的 马尔 可 夫 链 然后 仅仅 运行 了 儿 步 马尔 可 夫 链 , 不 太 可 能 到 达 模 型 中 离 数 据点 较 远 的 模式 。 这 
意味 着 从 模型 中 采样 时 ， 我 们 有 时 候 会 得 到 一 些 与 数据 并 不 相似 的 样本 。 这 也 意味 着 由 于 在 这 些 
模式 上 浪费 了 一 些 概 率 质 量 ， 模 型 很 难 把 较 高 的 概率 质量 集中 于 正确 的 模式 上 。 出 于 可 视 化 的 目 
的 ， 这 个 图 使 用 了 某 种 程度 上 说 更 加 简单 的 距离 的 概念 一 一 在 R 的 数 轴 上 虚假 模 态 与 正确 的 模式 
有 很 大 的 距离 。 这 对 应 着 基于 局 部 移动 R 上 的 单个 变量 z 的 马尔 可 夫 链 。 对 于 大 部 分 深度 概率 模 
型 来 说 ， 马 尔 可 夫 链 是 基于 Gibbs 采样 的 ， 并 且 对 于 单个 变量 产生 非 局 部 的 移动 但 是 无 法 同时 移 
动 所 有 的 变量 。 对 于 这 些 问题 来 说 ,考虑 编辑 中 离 比 欧式 距离 通常 更 好 。 然 而 ， 高 维 空间 的 编辑 距 
离 很 难 在 二 维 空 间作 图 展示 。 










































































自 先前 模型 分 布 的 样本 将 非常 接近 来 自 当 前 模型 分 布 的 客观 样本 ， 用 这 些 样 本 初始 
化 的 马尔 可 夫 链 将 不 需要 花费 很 多 时 间 来 完成 混合 。 

因为 每 个 马尔 可 夫 链 在 整个 学 习 过 程 中 不 断 更 新 ， 而 不 是 在 每 个 梯度 步骤 中 重 
新 开始 , 马尔 可 夫 链 可 以 自由 探索 很 远 , 以 找到 模型 的 所 有 峰值 , 因此 , SML 比 CD 更 
不 容易 形成 具有 虚假 模 态 的 模型 。 此 外 ， 因 为 可 以 存储 所 有 采样 变量 的 状态 ， 无 论 
是 可 见 的 还 是 潜在 的 ，SML 为 隐藏 单元 和 可 见 单元 都 提供 了 初始 值 。CD 只 能 为 可 
见 单元 提供 初始 化 ， 因 此 深度 模型 需要 进行 磨合 步 又。SML 能 够 高 效 地 训练 深度 模 
型 。Marlin et al. (2010) 将 SML 与 本 章 中 提出 的 许多 其 他 标准 方法 进行 比较 。 他 们 
发 现 ，SML Æ RBM 上 得 到 了 最 佳 的 测试 集 对 数 似 然 ， 并 且 如 果 RBM 的 隐藏 单元 被 
FAVE SVM 分 类 器 的 特征 ,那么 SML 会 得 到 最 好 的 分 类 精度 。 

FE k 太 小 或 e 太 大 时 ， 随 机 梯度 算法 移动 模型 的 速率 比 马尔 可 夫 链 在 迭代 步 
中 混合 更 快 ， 此 时 SML 容易 变 得 不 准确 。 不 幸 的 是 ， 这 些 值 的 容许 范围 高 度 依赖 
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算法 18.3 随机 最 大 似 然 /持续 性 对 比 散 度 算法 ,使 用 梯度 上 升 作为 优化 过 程 。 
设 步 长 e 为 一 个 小 正 数 。 
设 吉 布 斯 步 数 大 大 到 足以 让 从 p(x; 0 +eg) 采样 的 马尔 可 夫 链 磨合 (MRA p(x; 9) 
的 样本 开始 )。 在 小 图 像 集 上 训练 一 个 RBM 大 致 设 为 1， 对 于 更 复杂 的 模型 如 深度 
玻 尔 效 曼 机 可 能 要 设 为 5 到 50。 
初始 化 m 个 样本 {kx} 为 随机 值 ( 例如， 从 均匀 或 正 态 分布 中 采 ,， 或 大 
致 与 模型 边缘 分 布匹 配 的 分 布 )。 
while 不 收敛 do 
从 训练 集中 采 包 含 m 个 样本 {xO 000 xO} 的 小 批量 。 
g e 22, Vo log p(x; 0). 
fori=1tokdo 





for j = 1 to m do 
x‘) + gibbs_update(x). 
end for 
end for 
e+ g—2 7, Vo log p(x; 6). 
0 二 0 十 eg. 


end while 





于 具体 问题 。 现 在 还 没有 方法 能 够 正式 地 测试 马尔 可 夫 链 是 否 能 够 在 迭 代步 又 之 间 
成 功 混合 。 主 观 地 ， 如 果 对 于 Gibbs 步骤 数目 而 言 学习 率 太 大 的 话 ， 那 么 梯度 步 又 
中 负 相 采样 的 方差 会 比 不 同 马尔 可 夫 链 中 负 相 采样 的 方差 更 大 。 例 如 ， 一 个 MNIST 
模型 在 一 个 步 又 中 只 采样 得 到 了 7。 然 后 学 习 过 程 将 会 极 大 降低 7 对 应 的 峰值 ， 在 
下 一 个 步骤 中 ， 模 型 可 能 会 只 采样 得 到 9。 

从 使 用 SML 训练 的 模型 中 评估 采样 必须 非常 小 心 。 在 模型 训练 完 之 后 ， 有 必要 
从 一 个 随机 起 点 初始 化 的 新 马尔 可 夫 链 抽取 样本 。 用 于 训练 的 连续 负 相 链 中 的 样本 
受到 了 模型 最 近 几 个 版 本 的 影响 ， 会 使 模型 看 起 来 具有 上 比 其 实际 更 大 的 容量 。 

Berglund and Raiko (2013) 进行 了 实验 来 检验 由 CD 和 SML 进行 梯度 估计 带 来 
的 偏差 和 方差 。 结 果 证 明 CD 比 基 于 精确 采样 的 估计 具有 更 低 的 方差 。 而 SML 有 更 
高 的 方差 。CD 方差 低 的 原因 是 ， 其 在 正 相 和 负 相 中 使 用 了 相同 的 训练 点 。 如 果 从 不 
同 的 训练 点 来 初始 化 负 相 ， 那 么 方差 会 比 基 于 精确 采样 的 估计 的 方差 更 大 。 
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所 有 基于 MCMC 从 模型 中 抽取 样本 的 方法 在 原则 上 几乎 可 以 与 MCMC 的 任何 
变 体 一 起 使 用 。 这 意味 着 诸如 SML 这 样 的 技术 可 以 使 用 第 十 七 章 中 描述 的 任何 增 
强 MCMC 的 技术 (例如 并 行 回 火 ) 来 加 以 改进 (Desjardins et al., 2010b; Cho et al., 
2010b)。 

一 种 在 学 习 期 间 加 速 混合 的 方法 是 , 不 改变 蒙特 卡 罗 采 样 技 术 , 而 是 改变 模型 的 
参数 化 和 代价 函数 。 快速 持续 性 对 比 散 度 (fast persistent contrastive divergence ), 
或 者 FPCD (Tieleman and Hinton, 2009) 使 用 如 下 表达 式 去 蔡 换 传统 模型 的 参数 0 


0 = 00) + @lfast) (18.16) 


现在 的 参数 是 以 前 的 两 倍 多 ， 将 其 逐个 相 加 以 定义 原始 模型 的 参数 。 快 速 复 制 参数 
可 以 使 用 更 大 的 学 习 率 来 训练 , 从 而 使 其 快速 响应 学 习 的 负 相 , 并 促使 马尔 可 夫 链 探 
索 新 的 区 域 。 这 能 够 使 马尔 可 夫 链 快速 混合 ， 尽 管 这 种 效应 只 会 发 生 在 学 习 期 间 快 
速 权重 可 以 自由 改变 的 时 候 。 通 常 ， 在 短 时 间 地 将 快速 权重 设 为 大 值 并 保持 足够 长 
时 间 ， 使 马尔 可 夫 链 改变 峰值 之 后 ， 我 们 会 对 快速 权重 使 用 显著 的 权重 衰减 ， 促 使 
它们 收敛 到 较 小 的 值 。 

本 方 介绍 的 基于 MCMC 的 方法 的 一 个 关键 优点 是 它们 提供 了 log 2 梯度 的 佑 
计 ， 因 此 我 们 可 以 从 本 质 上 将 问题 分 解 为 log 方 和 log Z 两 块 。 然 后 我 们 可 以 使 用 任 
何其 他 的 方法 来 处 理 log 5(x)， 只 需 将 我 们 的 负 相 梯度 加 到 其 他 方法 的 梯度 中 。 特 别 
地 ,这 意味 着 正 相 可 以 使 用 那些 仅 提供 方 下 限 的 方法 。 然 而 ,本 音 介 绍 处 理 log Z 的 
大 多 数 其 他 方法 都 和 基于 边界 的 正 相 方法 是 不 兼容 的 。 








18.3 WZA 





蒙特 卡 罗 近 似 配 分 函数 及 其 梯度 需要 直接 处 理 配 分 函数 。 有 些 其 他 方法 通过 训 
练 不 需要 计算 配 分 函数 的 模型 来 绕 开 这 个 问题 。 这 些 方 法 大 多 数 都 基于 以 下 观察 : 
无 向 概率 模型 中 很 容易 计算 概率 的 比率 。 这 是 因为 配 分 函数 同时 出 现在 比率 的 分 子 
和 分 母 中 ， 互 相抵 消 : 





=4 ae, (18.17) 


伪 似 然 正 是 基于 条 件 概 率 可 以 采用 这 种 基于 比率 的 形式 ， 因 此 可 以 在 没有 配 分 
函数 的 情况 下 进行 计算 。 假 设 我 们 将 x 分 为 a，b Alc, HP a 包含 我 们 想 要 的 条 
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件 分 布 的 变量 ，b 包含 我 们 想 要 条 件 化 的 变量 ，c 包含 除 此 之 外 的 变量 : 
py Pad) pab) __ jab) a 
Hee) =" b) Sees Sebo G 
以 上 计算 需要 边缘 化 a, 假设 a 和 c 包含 的 变量 并 不 多 ， 那 么 这 将 是 非常 高 效 的 操 
作 。 在 极端 情况 下 ，a 可 以 是 单个 变量 ，e 可 以 为 空 ， 那 么 该 计算 仅 需 要 估计 与 间 

个 随机 变量 值 一 样 多 的 Do 

不 幸 的 是 ， 为 了 计算 对 数 似 然 ， 我 们 需要 边缘 化 很 多 变量 。 如 果 总 共有 n 个 变 

量 ， 那 么 我 们 必须 边缘 化 n 一 1 个 变量 。 根 据 概率 的 链 式 法 则 ， 我 们 有 








log p(x) = log p(x1) + logp(z2 | v1) +--+ + log p(&n | X1:n-1). (18.19) 


在 这 种 情况 下 ,我 们 已 经 使 a 尽 可 能 小 ,但 是 c 可 以 大 到 xzme 如 果 我 们 简单 地 将 c 移 
到 b 中 以 减少 计算 代价 , 那么 会 发 生 什么 呢 ? 这 便 产 生 了 伪 似 然 ( pseudolikelihood ) 
(Besag, 1975) 目 标 函 数 ， 给 定 所 有 其 他 特征 xz_;， 预 测 特征 zx; 的 值 : 


S logp(zi | z (18.20) 
w=1 


如 果 每 个 随机 变量 有 个 不 同 的 值 ， 那 么 计算 5 需要 kxn 次 估计 ， 而 计算 配 
分 函数 需要 k” 次 估计 。 

这 看 起 来 似乎 是 一 个 没有 道理 的 策略 ， 但 可 以 证 明 最 大 化 伪 似 然 的 估计 是 渐 近 
一 致 的 (Mase, 1995)。 当 然 ,， 在 数据 集 不 趋 近 于 大 采样 极限 的 情况 下 ， 伪 似 然 可 能 
现 出 与 最 大 似 然 估计 不 同 的 结 

我 们 可 以 使 用 广义 伪 似 然 估 计 (generalized pseudolikelihood estimator ) 来 权 
衡 计 算 复杂 度 和 最 大 似 然 表现 的 偏差 (Huang and Ogata, 2002)。 广 义 伪 似 然 估 计 使 
用 m 个 不 同 的 集合 SO, i= 1,...,m 作为 变量 的 指标 出 现在 条 件 棒 的 左 侧 。 在 
m=1 FSO =1,...,n 的 极端 情况 下 , 广义 伪 似 然 估 计 会 变 为 对 数 似 然 。 TE m =n 
Ail SO = {i} 的 极端 情况 下 ， 广 义 伪 似 然 会 恢复 为 伪 似 然 。 广 义 伪 似 然 估计 目标 函 
数 如 下 所 示 





> logp(xso | X_g@). (18.21) 


i=l 


基于 伪 似 然 的 方法 的 性 能 在 很 大 程度 上 取决 于 模型 是 如 何 使 用 的 。 对 于 完全 联 
合 分 布 p(x) 模型 的 任务 〈 例如 密度 估计 和 采样 )， 伪 似 然 通常 效果 不 好 。 对 于 在 训 
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练 期 间 只 需要 使 用 条 件 分 布 的 任务 而 言 ， 它 的 效果 比 最 大 似 然 更 好 ， 例 如 填充 少量 
的 缺失 值 。 如 果 数 据 具 有 规则 结构 ， 使 得 S 索引 集 可 以 被 设计 为 表现 最 重要 的 相关 
性 质 ， 同 时 略 去 相关 性 可 忽略 的 变量 , 那么 广义 伪 似 然 策略 将 会 非常 有 效 。 例 如 , 在 
自然 图 像 中 ， 空 间 中 相隔 很 远 的 像素 也 具有 弱 相 关 性 ， 因 此 广义 伪 似 然 可 以 应 用 于 
每 个 S 集 是 小 的 局 部 空间 窗口 的 情况 。 

伪 似 然 估计 的 一 个 弱点 是 它 不 能 与 仅 在 5(x) 上 提供 下 界 的 其 他 近似 一 起 使 用 ， 
例如 第 十 九 章 中 介绍 的 变 分 推断 。 这 是 因为 方 出 现在 了 分 母 中 。 分 母 的 下 界 仅 提供 
了 整个 表达 式 的 上 界 ， 然 而 最 大 化 上 界 没有 什么 意义 。 这 使 得 我 们 难以 将 伪 似 然 方 
法 应 用 于 诸如 深度 玻 尔 效 曼 机 的 深度 模型 ， 因 为 变 分 方法 是 近似 边缘 化 互相 作用 的 
多 层 隐 藏 变量 的 主要 方法 之 一 。 尽 管 如 此 ， 伪 似 然 仍 然 可 以 用 在 深度 学 习 中 ， 它 可 
以 用 于 单 层 模型 ， 或 使 用 不 基于 下 界 的 近似 推断 方法 的 深度 模型 中 。 

伪 似 然 比 SML 在 每 个 梯度 步骤 中 的 计算 代价 要 大 得 多 ， 这 是 由 于 其 对 所 有 条 
件 进 行 显 式 计算 。 但 是 ， 如 果 每 个 样本 只 计算 一 个 随机 选择 的 条 件 ， 那 么 广义 伪 
似 然 和 类 似 标准 仍然 可 以 很 好 地 运行 ， 从 而 使 计算 代价 降低 到 和 SML 差不多 的 程 
度 (Goodfellow et al., 2013d)。 

虽然 伪 似 然 佑 计 没 有 显 式 地 最 小 化 log 2， 但 是 我 们 仍然 认为 它 具 有 类 似 负 相 的 
效果 。 每 个 条 件 分 布 的 分 母 会 使 得 学 习 算法 降低 所 有 仅 具 有 一 个 变量 不 同 于 训练 样 
本 的 状态 的 概率 。 

读者 可 以 参考 Marlin and de Freitas (2011) 了 解 伪 似 然 渐 近 效 率 的 理论 分 析 ,。 
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得 分 匹配 (Hyvärinen, 2005b) 提供 了 另 一 种 训练 模型 而 不 需要 估计 2 或 其 导数 
的 一 致 性 方法 。 对 数 密度 关于 参数 的 导数 V。log p(x), 被 称 为 其 得 分 (score ), 得 分 
匹配 这 个 名 称 正 是 来 自 这 样 的 术语 。 得 分 匹配 采用 的 策略 是 ， 最 小 化 模型 对 数 密度 
和 数据 对 数 密度 关于 输入 的 导数 之 间 的 平方 差 期 望 : 














1 
L(x, 0) = 5 |V x log Pmodel (T; 0) = Vz log paata(x)||5 ) (18.22) 
1 
J(9) = 了 By (a) L (2, 0), (18.23) 
0* = min J(@). (18.24) 


0 
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该 目标 函数 避免 了 微分 配 分 函数 ZR AMER, AA 2 不 是 z 的 函数 ， 所 以 
VxZ = 0。 最 初 , 得 分 匹配 似乎 有 一 个 新 的 困难 : 计算 数据 分 布 的 得 分 需要 知道 生成 
训练 数据 的 真实 分 布 paata。 李 和 运 的 是 ， 最 小 化 L(x,0) 的 期 望 等 价 于 最 小 化 下 式 的 
期 望 





和 (18.25) 
9 = Ox? model 9 2 ax; model 3 , . 
HP n 是 z 的 维度 。 

因为 得 分 匹配 需要 关于 x 的 导数 ， 所 以 它 不 适用 于 具有 离散 数据 的 模型 ， 但 是 
模型 中 的 潜 变 量 可 以 是 离散 的 。 

类 似 于 伪 似 然 ， 得 分 匹配 只 有 在 我 们 能 够 直接 估计 log B(x) 及 其 导数 的 时 候 才 
有 效 。 它 与 对 log p(x) 仅 提供 下 界 的 方法 不 兼容 ， 因 为 得 分 匹配 需要 log p(x) 的 导 
数 和 二 阶 导数 ， 而 下 限 不 能 传达 关于 导数 的 任何 信息 。 这 意味 着 得 分 匹配 不 能 应 用 
于 隐藏 单元 之 间 具 有 复杂 相互 作用 的 模型 估计 ， 例 如 稀 琉 编码 模型 或 深度 玻 尔 效 受 
机 。 虽 然 得 分 匹配 可 以 用 于 预 训练 较 大 模型 的 第 一 个 隐藏 屋 ， 但 是 它 没 有 被 用 于 预 
训练 较 大 模型 的 较 深 层 网 络 。 这 可 能 是 因为 这 些 模型 的 隐藏 层 通常 包含 一 些 离散 变 


E, 


里 o 











虽然 得 分 匹配 没有 明确 显示 具有 负 相 信息 ， 但 是 它 可 以 被 视 为 使 用 特定 类 型 马 
尔 可 夫 链 的 对 比 散 度 的 变种 (Hyvärinen, 2007a)。 在 这 种 情况 下 ， 马 尔 可 夫 链 并 没有 
采用 Gibbs 采样 ， 而 是 采用 一 种 由 梯度 引导 局 部 更 新 的 不 同方 法 。 当 局 部 更 新 的 大 
小 接近 于 零 时 ， 得 分 匹配 等 价 于 具有 这 种 马尔 可 夫 链 的 对 比 散 度 。 

Lyu (2009) 将 得 分 匹配 推广 到 离散 的 情况 〈 但 是 推导 有 误 ， 后 由 Marlin et al. 
(2010) 修正 ). Marlin et al. (2010) 发 现 , 广义 得 分 匹配 ( generalized score match- 
ing, GSM ) 在 许多 样本 观测 概率 为 0 的 高 维 离散 空间 中 不 起 作用 。 

一 种 更 成 功 地 将 得 分 匹配 的 基本 想法 扩展 到 离散 数据 的 方法 是 比率 匹配 (ratio 
matching ) (Hyvärinen, 2007b)。 比 率 匹配 特别 适用 于 二 值 数据 。 比 率 匹配 最 小 化 以 
下 目标 函数 在 样本 上 的 均值 : 


2 
1 
LM (2, @) = >. ( ECO l (18.26) 


j=1 Pmodel(f (£),j;0) 


其 中 f(a, 7) 返回 7 处 位 值 取 反 的 x。 比 率 匹 配 使 用 了 与 伪 似 然 佑 计 相 同 的 策略 来 绕 
开 配 分 函数 ， 配 分 函数 会 在 两 个 概率 的 比率 中 抵消 掉 。Marlin et al. (2010) AB, YI 
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练 模型 给 测试 集 图 像 去 噪 时 ， 比 率 匹配 的 效果 要 优 于 SML、 伪 似 然 和 GSM。 

类 似 于 伪 似 然 估 计 ， 比 率 匹 配对 每 个 数据 点 都 需要 n 个 5 的 估计 ， 因 此 每 次 更 
新 的 计算 代价 大 约 比 SML 的 计算 代价 高 出 n 倍 。 

与 伪 似 然 估计 一 样 ， 我 们 可 以 认为 比率 匹配 减 小 了 所 有 只 有 一 个 变量 不 同 于 训 
练 样本 的 状态 的 概率 。 由 于 比率 匹配 特别 适用 于 二 值 数据 ， 这 意味 着 在 与 数据 的 汉 
明 距 离 为 1 内 的 所 有 状态 上 ， 比 率 匹 配 都 是 有 效 的 。 

比率 匹配 还 可 以 作为 处 理 高 维 稀 艳 数据 ( 例如 词 计数 向 量 ) 的 基础 。 这 类 稀 玉 C 
数据 对 基于 MCMC 的 方法 提出 了 挑战 ， 因 为 以 密集 格式 表示 数据 是 非常 消耗 计算 资 
源 的 ， 而 具有 在 模型 学 会 表示 数据 分 布 的 稀 朴 性 之 后 ，MCMC 采样 才 会 产生 稀 玻 值 。 
Dauphin and Bengio (2013) 设计 了 比率 匹配 的 无 偏 随机 近似 来 解决 这 个 问题 。 该 近 
似 只 估计 随机 选择 的 目标 子 集 ， 不 需要 模型 生成 完整 的 样本 。 

读者 可 以 参考 Marlin and de Freitas (2011) 了 解 比 率 匹 配 渐 近 效率 的 理论 分 
析 ， o 























18.5 “去 噪 得 分 匹配 
某 些 情况 下 ， 我 们 希望 拟 合 以 下 分 布 来 正则 化 得 分 匹配 
Psmoothea (£) — J panal y)dy (18.27) 


而 不 是 拟 合 真实 分 布 paata。 分 布 q(x | y) 是 一 个 损坏 过 程 ， 通 常 在 形成 z 的 过 程 中 
会 向 y 中 添加 少量 噪声 。 

去 噪 得 分 匹配 非常 有 用 ， 因 为 在 实践 中 ， 通 常 我 们 不 能 获取 真实 的 paatas MR 
能 得 到 其 样本 确定 的 经 验 分 布 。 给 定 足 够 容量 ， 任 何 一 致 估计 都 会 使 pmoael 成 为 一 
组 以 训练 点 为 中 心 的 Dirac 分 布 。 考 虑 在 第 5.4.5 节 介绍 的 渐 近 一 致 性 上 的 损失 ， 通 
过 4 来 平滑 有 助 于 缓解 这 个 问题 。Kingma and LeCun (2010b) 介绍 了 平滑 分 布 q 为 
正 态 分 布 噪声 的 正则 化 得 分 匹配 。 

回顾 第 14.5.1 节 ,有 一 些 自 编码 器 训练 算法 等 价 于 得 分 匹配 或 去 噪 得 分 匹配 。 因 
此 ， 这 些 自 编码 器 训练 算法 也 是 解决 配 分 函数 问题 的 一 种 方式 。 


ww ai bbt.com GOOOO00 


do rz DES 


528 BANS ”直面 配 分 函数 


18.6 ”噪声 对 比 估计 


具有 难 求解 的 配 分 函数 的 大 多 数 模型 估计 都 没有 估计 配 分 函数 。SML 和 CD 只 
估计 对 数 配 分 函数 的 梯度 ,而 不 是 估计 配 分 函数 本 身 。 得 分 匹配 和 伪 似 然 避免 了 和 配 
分 函数 相关 的 计算 。 

噪声 对 比 估计 (noise-contrastive estimation, NCE ) (Gutmann and Hyvari- 
nen, 2010) 采取 了 一 种 不 同 的 策略 。 在 这 种 方法 中 , 模型 估计 的 概率 分 布 被 明确 表示 
为 

log pmoadel(X) = log Pmodei(X; 0) +c, (18.28) 
其 中 c 是 —log Z(0) 的 近似 。 噪 声 对 比 估计 过 程 将 c 视 为 另 一 人 参数， 使 用 相同 的 算 
法 同时 估计 8 和 c， 而 不 是 仅仅 估计 0, 。 因 此 ， 所 得 到 的 log pmoaei(x) 可 能 并 不 完 
全 对 应 有 效 的 概率 分 布 ， 但 随 着 e 估计 的 改进 ， 它 将 变 得 越 来 越 接近 有 效 值 。 

这 种 方法 不 可 能 使 用 最 大 似 然 作 为 估计 的 标准 。 最 大 似 然 标准 可 以 设置 c 为 任 
意 大 的 值 ， 而 不 是 设置 c 以 创建 一 个 有 效 的 概率 分 布 。 

NCE 将 佑 计 p(x) 的 无 监督 学 习 问 题 转化 为 学 习 一 个 概率 二 元 分 类 器 ， 其 中 一 
个 类 别 对 应 模型 生成 的 数据 。 该 监督 学 习 问 题 中 的 最 大 似 然 估 计 定 义 了 原始 问题 的 
渐 近 一 致 估计 。 

具体 地 说 ， 我 们 引入 第 二 个 分 布 ， 曲 声 分 布 ( noise distribution ) pnoise(x)。 噪 
声 分 布 应 该 易于 估计 和 从 中 采样 。 我 们 现在 可 以 构造 一 个 联合 x 和 新 二 值 变量 y 的 
模型 。 在 新 的 联合 模型 中 ， 我 们 指定 











1 


Pjoint (Y = 1) = 7， (18.29) 
Pjoint (X | y= 1) pmodal (X), (18.30) 

和 
Djoint (X | y= 0) = Pnoise( X). (18.31) 


MEZ, y 是 一 个 决定 我 们 从 模型 还 是 从 噪声 分 布 中 生成 x 的 开关 变量 。 

我 们 可 以 在 训练 数据 上 构造 一 个 类 似 的 联合 模型 。 在 这 种 情况 下 , 开关 变量 决定 
是 从 数据 还 是 从 噪声 分 布 中 抽取 x。 正 式 地 ，puain(y = 1) = 二，puain(x | y = 1) = 
Daata(X) ’ All Ptrain (x | y= 0) = Pnoise (X)。 


INCE 也 适用 于 具有 易于 处 理 的 ， 不 需要 引入 额外 参数 c 的 配 分 函数 的 问题 。 它 已 经 是 最 令 人 感 兴趣 的 ， 估 计 具 
有 复杂 配 分 函数 模型 的 方法 。 
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现在 我 们 可 以 应 用 标准 的 最 大 似 然 学 习 拟 合 pjoint 到 ptrain 的 监督 学 习 问 题 : 











0, c = arg MaxEx pologpiont(y | xX). (18.32) 
0,c 





分 布 pjoint 本质 上 是 将 逻辑 回归 模型 应 用 于 模型 和 噪声 分 布 之 间 的 对 数 概率 之 











差 : P 
Pmodel |X 
join =1/x)= 18.33 
Pj ti(Y | ) Dmodei(X) + Dnoise(X) ( ) 
1 
T qe Prose) (18.34) 
+ Pmodel (X) 
1 
~ (18.35) 
1+ exp (log posts!) 
Pnoise(X) ) 
a N 18.36 
( È Pmodel (x) ( ) 
= 0 (log Pmodel (X) = log puoise(X)). (18.37) 


因此 ， 只 要 log Pmodel 易于 反问 传播 ， 并 且 如 上 所 述 ， Pnoise 应 易于 估计 ( 以 便 
评估 pjoimt ) 和 采样 ( 以 生成 训练 数据 )， 那么 NCE 就 易于 使 用 。 

NCE 能 够 非常 成 功 地 应 用 于 随机 变量 较 少 的 问题 ,但 即使 随机 变量 有 很 多 可 以 
取 的 值 时 ， 它 也 很 有 效 。 例 如 ， 它 已 经 成 功 地 应 用 于 给 定单 词 上 下 文 建 模 单 词 的 条 
件 分 布 (Mnih and Kavukcuoglu, 2013)。 虽 然 单词 可 以 采样 自 一 个 很 大 的 词汇 表 , 但 
是 只 能 采样 一 个 单词 。 

“4 NCE 应 用 于 具有 许多 随机 变量 的 问题 时 ， 其 效率 会 变 得 较 低 。 当 逻辑 回归 分 
类 需 发 现 某 个 变量 的 取 值 不 大 可 能 时 ， 它 会 拒绝 这 个 噪声 样本 。 这 意味 着 在 Pmodel 
学 习 了 基本 的 边缘 统计 之 后 ， 学 习 进 程 会 大 大 减 慢 。 想 象 一 个 使 用 非 结构 化 高 斯 品 
声 作 为 Pnoise 来 学 习 面部 图 像 的 模型 。 如 果 Pmodel 学 会 了 眼睛 ， 就 算 没 有 学 习 任 何 
其 他 面部 特征 ， 比 如 嘴 ， 它 也 会 拒绝 几乎 所 有 的 非 结 构 化 噪声 样本 。 

噪声 分 布 paoise 必须 是 易于 估计 和 采样 的 约束 可 能 是 过 于 严格 的 限制 。 当 paoise 
比较 简单 时 ， 大 多 数 采 样 可 能 与 数据 有 着 明显 不 同 ， 而 不 会 迫使 pmoael 进行 显著 改 


进 。 


























类 似 于 得 分 匹配 和 伪 似 然 ， 如 果 p RETE, 那么 NCE 不 会 有 效 。 这 样 的 下 界 
能 够 用 于 构建 piont(y = 1 | x) 的 下 界 ， 但 是 它 只 能 用 于 构建 iont(y = 0 | x) (出 现 
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在 一 半 的 NCE 对象 中 ) 的 上 界 。 同 样 地 ，p,oise 的 下 界 也 没有 用 ， 因 为 它 只 提供 了 
pioint(Y = 1 | x) 的 上 界 。 

在 每 个 梯度 步骤 之 前 ， 模 型 分 布 被 复制 来 定义 新 的 噪声 分 布 时 ，NCE 定义 了 一 
个 被 称 为 自 对 比 估计 (self-contrastive estimation ) 的 过 程 ， 其 梯度 期 望 等 价 于 最 大 
似 然 的 梯度 期 望 (Goodfellow, 2014)。 特 殊 情况 的 NCE ( 噪声 采样 由 模型 生成 ) 表 
明 最 大 似 然 可 以 被 解释 为 使 模型 不 断 学 习 以 将 现实 与 自身 发 展 的 信念 区 分 的 过 程 ， 
而 噪声 对 比 估计 通过 让 模型 区 分 现实 和 固定 的 基准 (噪声 模型 )， 我 们 降低 了 计算 成 
本 。 

在 训练 样本 和 生成 样本 ( 使 用 模型 能 量 函 数 定义 分 类 器 ) 之 间 进 行 分 类 以 得 
到 模型 的 梯度 的 方法 ， 已 经 在 更 早 的 时 候 以 各 种 形式 提出 来 (Welling et al., 2003b; 
Bengio, 2009)。 

噪声 对 比 估计 是 基于 良好 生成 模型 应 该 能 够 区 分 数据 和 噪声 的 想法 。 一 个 密切 
相关 的 想法 是 ， 良 好 的 生成 模型 能 够 生成 分 类 器 无 法 将 其 与 数据 区 分 的 样本 。 这 个 
想法 诞生 了 生成 式 对 抗 网 络 (第 20.10.4 节 )。 




















18.7 估计 配 分 函数 


尽管 本 章 中 的 大 部 分 内 容 都 在 避免 计算 与 无 向 图 模型 相关 的 难以 计算 的 配 分 函 
数 2Z(9)， 但 在 本 节 中 我 们 将 会 讨论 几 种 直接 估计 配 分 函数 的 方法 。 

估计 配 分 图 数 可 能 会 很 重要 ， 当 我 们 希望 计算 数据 的 归 一 化 似 然 时 ， 我 们 会 需 
要 它 。 和 在 评估 模型 ， 监 控 训 练 性 能 ， 和 比较 模型 时 ， 这 通常 是 很 重要 的 。 

例如 ， 假 设 我 们 有 两 个 模型 : 概率 分 布 为 p4(x; 04) = 去 B54(X; 6.4) 的 模型 Ma 
和 概率 分 布 为 pp(x; 0B) = gPe(x; Oe) 的 模型 Ms。 比较 模型 的 常用 方法 是 评估 
和 比较 两 个 模型 分 配给 独立 同 分 布 测试 数据 集 的 似 然 。 假 设 测 试 集合 m 个 样本 
{£®,... 20), WR [[; pa(x 中 ;04) > [l ps(x 中 ;08)， 或 等 价 地 ， 如 果 


>》 log pa(x; 04) — > log pa(x; 0s) > 0, (18.38) 





那么 我 们 说 Ma 是 一 个 比 Ms 更 好 的 模型 (或 者 ， 至 少 可 以 说 ， 它 在 测试 集 上 是 
一 个 更 好 的 模型 )， 这 是 指 它 有 一 个 更 好 的 测试 对 数 似 然 。 不 地 的 是 ， 测 试 这 个 条 件 
是 否 成 立 需 要 知道 配 分 函数 。 式 (18.38) 看 起 来 需要 估计 模型 分 配给 每 个 点 的 对 数 概 
率 ， 因 而 需要 估计 配 分 函数 。 我 们 可 以 通过 将 式 (18.38) 重新 转化 为 男 一 种 形式 来 简 
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化 情况 ， 在 该 形式 中 我 们 只 需要 知道 两 个 模型 的 配 分 函数 的 比率 : 
l , jaA(x():0 Z(0 
> Jogpa(x 04) — Daaa = 2 (ios a = ki A 





- B(x; Op) 

因此 ， 我 们 可 以 在 不 知道 任 一 模型 的 配 分 函数 ， 而 只 知道 它们 比率 的 情况 下 ， 判 断 
模型 Ma 是 否 比 模型 Mg 更 优 。 正 如 我 们 将 很 快 看 到 的 ， 在 两 个 模型 相似 的 情况 
下 ， 我 们 可 以 使 用 重要 采样 来 估计 比率 。 

然而 ， 如 果 我 们 想 要 计算 测试 数据 在 Ma 或 Mp 上 的 真实 概率 ， 我 们 需要 计 
算 配 分 函数 的 真实 值 。 如 果 我 们 知道 两 个 配 分 函数 的 比率 ,= Z6, HARNA 
道 两 者 中 一 个 的 实际 值 ， 比 如 说 Z(94)， 那 么 我 们 可 以 计算 男 一 个 的 值 : 
Z(On) 
Z (04) 








Z(0z) =rZ(0a) = Z(O.). (18.40) 





一 种 估计 配 分 函数 的 简单 方法 是 使 用 蒙特 卡 罗 方 法 ,例如 简单 重要 采样 。 以 下 
用 连续 变量 积分 来 表示 该 方法 ， 也 可 以 替换 积分 为 求 和 ， 很 容易 将 其 应 用 到 离散 变 
量 的 情况 。 我 们 使 用 提议 分 布 po(x) = g-Po(x), HEMSKA Zo 和 未 归 一 化 分 布 
Po(x) 上 易于 采样 和 估计 。 











Zı = /medx (18.41) 
= Bodax (18.42) 
= Za | pox ae dx (18.43) 

和 K ara 

Z = “ > a s.t. : x ~ po (18.44) 


在 最 后 一 行 ， 我 们 使 用 蒙特 卡 罗 估 计 ，, 使 用 从 po(x) 中 抽取 的 采样 计算 积分 2, 
然后 用 未 归 一 化 的 pi 和 提议 分 布 po 的 比率 对 每 个 采样 加 权 。 
这 种 方法 使 得 我 们 可 以 估计 配 分 函数 之 间 的 比率 : 


一 》 一 一 i stx ~ po. (18.45) 


然后 该 值 可 以 直接 比较 式 (18.39) 中 的 两 个 模型 。 
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如 果 分 布 po 接近 pi1， 那 么 式 (18.44) 能够 有 效 地 估计 配 分 函数 (Minka, 2005). 
不 幸 的 是 ， 大 多 数 时 候 pi 都 很 复杂 (通常 是 多 峰值 的 )， 并 且 定 义 在 高 维 空间 中 。 
很 难 找到 一 个 易 求 解 的 po ， 既 能 易于 评估 ， 又 能 充分 接近 pi 以 保持 高 质量 的 近似 。 
如 果 po 和 pi 不 接近 ,那么 po 的 大 多 数 采 样 将 在 zi 中 具有 较 低 的 概率 ， 从 而 在 
式 (18.44) 的 求 和 中 产生 ( 相对 的 ) 可 忽略 的 贡献 。 

如 果 求 和 中 只 有 少数 几 个 具有 显著 权重 的 样本 ， 那 么 将 会 由 于 高 方差 而 导致 估 
计 的 效果 很 差 。 这 可 以 通过 估计 2a 的 方差 来 定量 地 理解 : 





Var (&) = 2 





7 ) 2) | (18.46) 


1 (xe 
o(x“)) 


Am 
May es 


当 重要 性 权重 BOD 存在 显著 偏差 时 ， 上 式 的 值 是 最 大 的 。 

我 们 现在 关注 两 个 解决 高 维 空间 复杂 分 布 上 估计 配 分 函数 的 方法 : 退火 重要 采 
样 和 桥 式 采样 。 两 者 都 始 于 上 面 介绍 的 简单 重要 采样 方法 ， 并 且 都 试图 通过 引入 缩 
小 po 和 pi 之 间 差 距 的 中 间 分 布 ， 来 解决 po 远离 pi 的 问题 。 








18.7.1 ”退火 重要 采样 


在 Dkz(pollpi) 很 大 的 情况 下 CE po 和 pi ZILA EZ )， 一 种 称 为 退火 
重要 采样 (annealed importance sampling, AIS) 的 方法 试图 通过 引入 中 间 分 
布 来 缩小 这 种 差距 (Jarzynski, 1997; Neal, 2001)。 考 虑 分 布 序列 p,,,...,p,,， 其 中 
0= 1 <m <-*+<Mm1< m= 二 1， 分布 序列 中 的 第 一 个 和 最 后 一 个 分 别 是 po 和 
Pio 

这 种 方法 使 我 们 能 够 估计 定义 在 高 维 空间 多 峰 分 布 〈 例 如 训练 RBM 时 定义 
的 分 布 ) 上 的 配 分 函数 。 我 们 从 一 个 已 知 配 分 函数 的 简单 模型 ( 例如， 权重 为 零 
的 RBM ) 开始 ， 佑 计 两 个 模型 配 分 孔 数 之 间 的 比率 。 该 比率 的 估计 基 于 许多 个 相似 
分 布 的 比率 估计， 例如 在 零 和 学 习 到 的 权重 之 间 插 值 一 组 权重 不 同 的 RBM。 





ww ai bbt.com DO000000 


dourbz/350DFo 


18.7 A&H BOD Bak 533 


现在 我 们 可 以 将 比率 2 写作 











= ee = 18.47 
Zo Lo Zm Lr _i ( ) 
= Zm Zm Zna Zı (18 48) 
Zo Zm n Zin —2 Zini l 
n-1 
Lip: 

= =— (18.49) 

= Zn; 

j=0 


如 果 对 于 所 有 的 0 < 7 < n 一 1， 分布 py, 和 py, 足够 接近 ， 那 么 我 们 能 够 使 用 简 
单 的 重要 采样 来 估计 每 个 因子 ae 然后 使 用 这 些 得 到 z 的 估计 。 

这 些 中 间 分 布 是 从 哪里 来 的 呢 ? 正如 最 先 的 提议 分 布 po 是 一 种 设计 选择 ， 分 布 
序列 Pm -Pr 也 是 如 此 。 也 就 是 说 ， 它 们 可 以 被 特别 设计 为 特定 的 问题 领域 。 中 
间 分 布 的 一 个 通用 和 流行 选择 是 使 用 目标 分 布 pi 的 加 权 几 何平 均 ， 起 始 分 布 (其 配 
分 函数 是 已 知 的 ) 为 po: 

Pn; X Dy Tp, (18.50) 

为 了 从 这 些 中 间 分 布 中 采样 ， 我 们 定义 了 一 组 马尔 可 夫 链 转移 函数 T, (a! | 四 ， 
定义 了 给 定 z 转移 到 of 的 条 件 概 率 分 布 。 转 移 算 子 T(x | 四 定义 如 下 ， 保 持 
Dn, (£) DÆ: 

pn; (£) = fo Te x )da’. (18.51) 
这 些 转移 可 以 被 构造 为 任何 马尔 可 夫 链 蒙特 卡 罗 方 法 (例如 ，Metropolis-Hastings， 
Gibbs )， 包 括 涉及 多 次 遍历 所 有 随机 变量 或 其 他 迭代 的 方法 。 


然后 ，AIS 采 样 方 法 从 po 开始 生成 样本 ， 并 使 用 转移 算 子 从 中 间 分 布 顺序 地 生 
成 采样 ， 直 到 我 们 得 到 目标 分 布 pi 的 采样 : 





e MF k=1...K 
-采样 any ~ po(x) 
we k k k 
=- 采样 al) ~ Tm txt’ | alt?) 


Been k k k 
— ea ee ears | es) 
= 采样 ay, Trn- Ge? | alt) 5 


。 结 
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对 于 采样 k， 通 过 连接 式 (18.49) 给 出 的 中 间 分 布 之 间 的 重要 性 权重 ， 我 们 可 以 
导出 目标 重要 性 权重 : 


5 k x k a k 
w) Brn (OH) Bae?) pr (a) 
w -RN 二 ET ONG 
Doz ) Pn (Trz ) Bnn (Ein ) 


为 了 避免 诸如 上 溢 的 数值 问题 ， 最 佳 方法 可 能 是 通过 加 法 或 减法 计算 log w) , mA 
是 通过 概率 乘法 和 除法 计算 w, 

利用 由 此 定义 的 采样 过 程 和 式 (18.52) 中 给 出 的 重要 性 权重 ， 配 分 函数 的 比率 佑 
计 如 下 所 示 : 





(18.52) 





Z 1 
Fa w (18.53) 


为 了 验证 该 过 程 定 义 的 重要 采样 方案 是 否 有 效 ， 我 们 可 以 展示 (Neal, 
2001) AIS 过 程 对 应 着 扩展 状态 空间 上 的 简单 重要 采样 ， 其 中 数据 点 采样 自 乘 
REH [Em Ena 21]。 为 此 ， 我 们 将 扩展 空间 上 的 分 布 定义 为 





DZ 1 21) (18.54) 


=p; (21 )T nn 1 (Ern | 1) PRCA Y | Brn) Pr Tri (£n, | Tra), (18.55) 





其 中 T, 是 由 Ta 定义 的 转移 算 子 的 逆 ( 应 用 贝 叶 斯 规则 ): 


mT at) = Paley (| af 
pJ T) = 5 (wy T° | 2). (18.56) 


将 以 上 代入 到 式 (18.55) 给 出 的 扩展 状态 空间 上 的 联合 分 布 中 ， 我 们 得 到 : 


Ta(a | a) = 








P( yy ++ +5 Bn 1 21) (18.57) 
Pnn (mn,) TT Bb (vn) 
~ Nn-1 Nn—1 Ni Ni 
=p (a1) e ma T (a | an) TT EET, (ree | En 18.58 
1(@1) n A) 2" (a, | £ TT Nena) mi (Enigi | By: ) ( ) 
pi(21) Ty Press (Bret) 
1\41 ~ itl Mi+1 
=~ Tm- (%1 | Enn) (£ 1) ~ Tyi (Er 1 | Eni) (18.59) 
Pry (21) ý c " n II Pn: (Enigi) 7 ls ý 


通过 上 面 给 定 的 采样 方案 ， 现 在 我 们 可 以 从 扩展 样本 上 的 联合 提议 分 布 g 上 生成 采 
样 ， 联 合 分 布 如 下 


QL ,Pn E1) = Poly: ) Tr (Ena | Eri) :Tn (Lt | Bava) (18.60) 
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式 (18.59) 给 出 了 扩展 空间 上 的 联合 分 布 。 将 g(z ++) Lina Bi) 作为 扩展 状态 空间 
上 的 提议 分 布 (我 们 会 从 中 抽样 )， 重要 性 权重 如 下 


= 2 k ~ ~ k 
wE) — P(Ln 5 aa e Enni) 21) pi (al )) Bn. (ah ) By, (29) (18 61) 
了 -7 k š 
Dom Eona 2) By ilama) Bm (atm?) Bol ay”) 





这 些 权 重 和 AIS 上 的 权重 相同 。 因 此 ， 我 们 可 以 将 AIS 解释 为 应 用 于 扩展 状态 上 的 

简单 重要 采样 ， 其 有 效 性 直接 来 源 于 重要 采样 的 有 效 性 。 
退火 重要 采样 首先 由 Jarzynski (1997) 发 现 , 然后 由 Neal (2001) 再 次 独立 发 现 。 

目前 它 是 估计 无 向 概率 模型 的 配 分 函数 的 最 常用 方法 。 其 原因 可 能 与 一 篇 有 影响 力 

的 论文 (Salakhutdinov and Murray, 2008) 有 关 , 该 论文 并 没有 讨论 该 方法 相对 于 其 

他 方法 的 优点 ， 而 是 介绍 了 将 其 应 用 于 估计 受 限 玻 尔 兹 曼 机 和 深度 信念 网 络 的 配 分 
KF AIS 估计 性 质 ( 例如， 方差 和 效率 ) 的 讨论 ， 请 参看 Neal (2001). 














18.7.2 ” 桥 式 采样 


类 似 于 AIS， 桥 式 采 样 (Bennett, 1976) 是 另 一 种 处 理 重 要 采样 缺点 的 方法 。 并 
非 将 一 系列 中 间 分 布 连接 在 一 起 ， 桥 式 采 样 依赖 于 单个 分 布 p。( 被 称 为 桥 )， 在 已 
知 配 分 函数 的 分 布 po 和 分 布 p，( 我 们 试图 估计 其 配 分 函数 Z1 ) 之 间 插 值 。 

桥 式 采样 估计 比率 Z1/Zo: Po 和 p 之 间 重 要 性 权重 期 望 与 py 和 p, 之 间 重 要 
性 权重 的 比率 ， 























K ~- (k) K ah) 

Z Ba (Xo 7 万 (Zi ) 

— > - ; > = ma? (18.62) 
0 k=1 Pola ) k=1 Pilal 人 


如 果 仔 细 选 择 桥 式 采 样 p, ERE po 和 pi 都 有 很 大 重合 的 话 ， 那 么 桥 式 采样 能 够 
允许 两 个 分 布 (或 更 正式 地 ，Dkz(pollp1) ) 之 间 有 较 大 差距 〈 相对 标准 重要 采样 而 


言 )。 





可 以 表明 ， 最 优 的 桥 式 采样 是 pl? (x) oc PORA, Hh r= Z1/Zo。 这 似乎 
是 一 个 不 可 行 的 解决 方案 ， 因 为 它 似乎 需要 我 们 信 计 数值 Z/Z RT, TUA 
本 的 r 开始 估计 ， 然 后 使 用 得 到 的 桥 式 采样 逐步 闪 代 以 改进 估计 (Neal, 2005)。 也 就 


是 说 ,我 们 会 迭代 地 重新 估计 比率 ， 并 使 用 每 次 迭代 更 新 r 的 值 。 
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链接 重要 采样 AIS 和 桥 式 采样 各 有 优点 。 如 果 Dkr(pollpi) 不 太 大 (由 于 po 和 pi 
足够 接近 ) 的 话 ， 那 么 桥 式 采样 能 比 ATS 更 高 效 地 估计 配 分 函数 比率 。 然 而 ， 如 果 
对 于 单个 分 布 ps 而 言 ， 两 个 分 布 相距 太 远 难以 桥接 差距 ， 那 么 AIS 至 少 可 以 使 用 许 
多 潜在 中 间 分 布 来 跨越 po 和 pi 之 间 的 差距 。Neal (2005) 展示 链接 重要 采样 方法 如 
何 利 用 桥 式 采样 的 优点 ， 桥 接 AIS 中 使 用 的 中 间 分 布 ， 并 且 显 著 改 进 了 整个 配 分 耳 
数 的 估计。 


在 训练 期 间 估 计 配 分 函数 虽然 AIS 已 经 被 认为 是 用 于 估计 许多 无 向 模型 配 分 函 
数 的 标准 方法 ,但 是 它 在 计算 上 代价 很 高 ， 以 致 其 在 训练 期 间 仍然 不 很 实用 。 研 究 
者 探索 了 一 些 在 训练 过 程 中 估计 配 分 函数 的 替代 方法 。 

使 用 桥 式 采样 、 短 链 AIS 和 并 行 回 火 的 组 合 ，Desjardins et al. (2011) 设计 了 一 
种 在 训练 过 程 中 追踪 RBM 配 分 函数 的 方法 。 该 策略 的 基础 是 ,在 并 行 回 火 方法 操作 
的 每 个 温度 下 ，RBM 配 分 函数 的 独立 估计 会 一 直 保 持 。 作 者 将 相 邻 链 (来 自 并 行 回 
K) 的 配 分 函数 比率 的 桥 式 采样 估计 和 跨越 时 间 的 AIS 估计 组 合 起 来 ， 提 出 一 个 在 
每 次 迭代 学 习 时 估计 配 分 函数 的 ( 日 方差 较 小 的 ) 方法 。 

本 章 中 描述 的 工具 提供 了 许多 不 同 的 方法 ， 以 解决 难处 理 的 配 分 函数 问题 ， 但 
是 在 训练 和 使 用 生成 模型 时 ， 可 能 会 存在 一 些 其 他 问题 。 其 中 最 重要 的 是 我 们 接 下 
来 会 遇 到 的 难以 推断 的 问题 。 
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许多 概率 模型 很 难 训练 的 原因 是 很 难 进 行 推 产 。 在 深度 学 习 中 ， 通 党 我 们 有 一 
系列 可 见 变量 v 和 一 系列 潜 变 量 ho 推断 困难 通常 是 指 难 以 计算 p(h | v) 或 其 期 望 。 
而 这 样 的 操作 在 一 些 诸如 最 大 似 然 学 习 的 任务 中 往往 是 必需 的 。 

许多 仅 含 一 个 隐藏 层 的 简单 图 模型 会 定义 成 易于 计算 p(h | o) 或 其 期 望 的 形式 ， 
例如 受 限 玻 尔 兹 曼 机 和 概率 PCA。 不 幸 的 是 ， 大 多 数 具 有 多 层 隐藏 变量 的 图 模型 的 
后 验 分 布 都 很 难处 理 。 对 于 这 些 模型 而 言 ， 精 确 推 斯 算法 需要 指数 量 级 的 运行 时 间 。 
即使 一 些 只 有 单 层 的 模型 ， 如 稀 玻 编码 ， 也 存在 着 这 样 的 问题 。 

在 本 章 中 ， 我 们 将 会 介绍 几 个 用 来 解决 这 些 难 以 处 理 的 推断 问题 的 技巧 。 稍 后 ， 
在 第 二 十 章 中 ， 我 们 还 将 描述 如 何 将 这 些 技巧 应 用 到 训练 其 他 方法 难以 雪 效 的 概率 
模型 中 ， 如 深度 信念 网 络 、 深 度 玻 尔 兹 曼 机 。 

在 深度 学 习 中 难以 处 理 的 推断 闻 题 通常 源 于 结构 化 图 模型 中 潜 变 量 之 间 的 相互 
作用 。 读 者 可 以 参考 图 19.1 的 几 个 例子 。 这 些 相 互 作用 可 能 是 无 向 模型 的 直接 相互 
作用 ， 也 可 能 是 有 向 模型 中 同一 个 可 见 变量 的 共同 祖先 之 间 的 “ 相 消 解释 ”作用 。 
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OVO 


图 19.1: 深度 学 习 中 难以 处 理 的 推断 问题 通常 是 由 于 结构 化 图 模型 中 潜 变 量 的 相互 作用 。 这 些 
相互 作用 产生 于 一 个 潜 变 量 与 男 一 个 潜 变 量 或 者 当 V- 结 构 的 子 节点 可 观察 时 与 更 长 的 激活 路 径 
相连 。( 左 ) 一 个 隐藏 单元 存在 连接 的 半 受 限 波 尔 兹 曼 机 ( semi-restricted Boltzmann Machine ) 
(Osindero and Hinton, 2008)。 由 于 存在 大 量 潜 变 量 的 团 ， 洪 变量 的 直接 连接 使 得 后 验 分 布 难以 处 
理 。( 中 ) 一 个 深度 玻 尔 兹 曼 机 , 被 分 层 从 而 使 得 不 存在 层 内 连接 ,由 于 层 之 间 的 连接 其 后 验 分 布 仍 
然 难以 处 理 。( 右 ) 当 可 见 变 量 可 观察 时 这 个 有 向 模型 的 潜 变 量 之 间 存 在 相互 作用 ， 因 为 每 两 个 潜 
变量 都 是 共 父 。 即 使 拥有 上 图 中 的 某 一 种 结构 ， 一 些 概率 模型 依然 能 够 获得 易于 人 处理 的 关于 潜 变 
量 的 后 验 分 布 。 如 果 我 们 选择 条 件 概 率 分 布 来 引入 相对 于 图 结构 描述 的 额外 的 独立 性 这 种 情况 也 
是 可 能 出 现 的 。 举 个 例子 ， 概率 PCA 的 图 结构 如 右 图 所 示 ， 然 而 由 于 其 条 件 分 布 的 特殊 性 质 ( 带 
有 相互 正 交 基 向 量 的 线性 高 斯 条 件 分 布 ) 依然 能 够 进行 简单 的 推断 。 










































































































































































19.1 ”把 推断 视 作 优化 问题 


精确 推断 问题 可 以 描述 为 一 个 优化 问题 ， 有 许多 方法 正 是 由 此 解决 了 推断 的 困 
难 。 通 过 近似 这 样 一 个 潜在 的 优化 问题 ， 我 们 往往 可 以 推导 出 近似 推断 算法 。 

为 了 构造 这 样 一 个 优化 问题 ， 假 设 我 们 有 一 个 包含 可 见 变量 v 和 潜 变 量 h 的 概 
率 模 型 。 我 们 希望 计算 观察 数据 的 对 数 概 率 logp(w; 0)。 有 时 候 如 果 边 绿化 消去 h 的 
操作 很 费时 ， 我 们 会 难以 计算 log p(w; 9)。 作 为 替代 ， 我 们 可 以 计算 一 个 log p(w; 0) 
的 下 界 L(w, 9,dq)。 这 个 下 界 被 称 为 证 据 下 界 (evidence lower bound, ELBO )。 这 个 
下 界 的 另 一 个 常用 名 称 是 负 变 分 自由 能 (variational free energy )。 上 有 具体 地 ， 这 个 证 
据 下 界 是 这 样 定义 的 : 


L(v,0,q) = logp(v; 0) — DrrL(a(h | v)||\p(h | v;0)), (19.1) 


其 中 q 是 关于 h 的 一 个 任意 概率 分 布 。 
因为 logp(v) 和 C(u,0,9) 之 间 的 距离 是 由 KL 散 度 来 衡量 的 ， 且 KL 散 度 总 是 
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非 负 的 ， 我 们 可 以 发 现 L 总 是 小 于 等 于 所 求 的 对 数 概率 。 当 且 仅 当 分 布 9 完全 相等 
于 p(h | v) 时 取 到 等 号 。 

令 人 吃惊 的 是 ， 对 于 某 些 分 布 9， 计 算 C 可 以 变 得 相当 简单 。 通 过 简单 的 代数 
运算 我 们 可 以 把 C 重 写成 一 个 更 加 简单 的 形式 : 















































L(v, 0, ¢) =log p(v; 0) — Dex (q(h | v)||p(h | v; 0)) (19.2) 
M AR q(h | v) 
=]log p(v; 0) — En~q log TAE (19.3) 
h 
=]log p(v; 0) — Env, log a (19.4) 
p(v;0) 
=logp(v;0) — Epallog g(h | v) — log p(h, v; 0) +logp(v;0)] (19.5) 
= — En~allog q(h | v) — log p(h, v; 0)]. (19.6) 
这 也 给 出 了 证 据 下 界 的 标准 定义 : 
L(v, 0, q) = Ep~allog p(h, v)] + H (q). (19.7) 











对 于 一 个 较 好 的 分 布 g 的 选择 来 说 ，L 是 容易 计算 的 。 对 任意 分 布 q 的 选择 来 
说 , L 提供 了 似 然 函数 的 一 个 下 界 。 越 好 地 近似 p(h | v) 的 分 布 gq(h | v)， 得 到 的 下 
界 就 越 紧 ， 换 言 之 ， 就 是 与 log p(v) 更 加 接近 。 当 g(h |v) = p(h|wv) 时 ， 这 个 近似 
是 完美 的 ， 也 意味 着 L(v,0,q) = log p(v; 0)。 

因此 我 们 可 以 将 推断 问题 看 作 是 找 一 个 分 布 g 使 得 C 最 大 的 过 程 。 精 确 推断 能 
够 在 包含 分 布 p(h | v) 的 函数 族 中 搜索 一 个 函数 ,完美 地 最 大 化 Lo ERER, 我 们 
将 会 讲 到 如 何 通过 近似 优化 寻找 分 布 g 的 方法 来 推导 出 不 同形 式 的 近似 推断 。 我 们 
可 以 通过 限定 分 布 9 的 形式 或 者 使 用 并 不 彻底 的 优化 方法 来 使 得 优化 的 过 程 更 加 高 
效 ( 却 更 粗略 )， 但 是 优化 的 结果 是 不 完美 的 ， 不 求 彻底 地 最 大 化 C， 而 只 要 显著 地 
提升 C。 

无 论 我 们 选择 什么 样 的 分 布 *，Z 始终 是 一 个 下 界 。 我 们 可 以 通过 选择 一 个 更 简 
单 抑或 更 复杂 的 计算 过 程 来 得 到 对 应 的 更 松 抑或 更 紧 的 下 界 。 通 过 一 个 不 彻底 的 优 
化 过 程 或 者 将 分 布 9 做 很 强 的 限定 〈 并 且 使 用 一 个 彻底 的 优化 过 程 ) 我 们 可 以 获得 
一 个 很 差 的 分 布 9， 但 是 降低 了 计算 开销 。 
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19.2 ”期 望 最 大 化 


我 们 介绍 的 第 一 个 最 大 化 下 界 L 的 算法 是 期望 最 大 化 (expectation maximiza- 
tion, EM ) 算法 。 在 潜 变 量 模 型 中 ， 这 是 一 个 非常 常见 的 训练 算法 。 在 这 里 我 们 描 
述 Neal and Hinton (1999) 所 提出 的 EM 算法 。 与 大 多 数 我 们 在 本 章 中 介绍 的 其 他 
算法 不 同 的 是 ，EM 并 不 是 一 个 近似 推断 算法 ， 而 是 一 种 能 够 学 到 近似 后 验 的 算法 。 

EM 算法 由 交替 迭代 ， 直 到 收敛 的 两 步 运 算 组 成 : 





e 卫 步 (expectation step) : 令 0(0 表示 在 这 一 步 开 始 时 的 参数 值 。 对 任何 我 们 
想 要 训练 的 (对 所 有 的 或 者 小 批量 数据 均 成 立 ) 索引 为 :的 训练 样本 vO, S 
q(h® | v) = ph | v0;090))。 通 过 这 个 定义 ,我 们 认为 q 在 当前 参数 OO 下 
定义 。 如 果 我 们 改变 0, ABA p(h | v0) 将 会 相应 地 变化 ， 但 是 gq(h | v) 还 是 
不 变 并 且 等 于 p(h | wv; 90))。 


e M & (maximization step ): 使 用 选择 的 优化 算法 完全 地 或 者 部 分 地 关于 9 最 
大 化 


>i, 6,4). (19.8) 


这 可 以 被 看 作 通过 坐标 上 升 算法 来 最 大 化 .C。 在 第 一 步 中 ， 我 们 更 新 分 布 q 来 
最 大 化 LC， 而 在 为 一 步 中 ， 我 们 更 新 9 来 最 大 化 Lo 

基于 潜 变 量 模型 的 随机 梯度 上 升 可 以 被 看 作 是 一 个 EM 算法 的 特例 ， 其 中 M 
步 包 括 了 单 次 梯度 操作 。EM 算法 的 其 他 变种 可 以 实现 多 次 梯度 操作 。 对 一 些 模 型 
族 来 说 ，M 步 甚至 可 以 通过 推出 解析 解 直接 完成 ， 不同 于 其 他 方法 ， 在 给 定 当前 q 
的 情况 下 直接 求 出 最 优 解 。 

尽管 EE 步 采用 的 是 精确 推断 ， 我 们 仍然 可 以 将 EM 算法 视 作 是 某 种 程度 上 的 近 
似 推 断 。 具 体 地 说 ，M 步 假设 一 个 分 布 q 可 以 被 所 有 的 9 值 分 享 。 当 M 步 越 来 越 
远离 卫 步 中 的 OO) 时 ， 这 将 会 导致 C 和 真实 的 log p(v) 之 间 出 现 差距 。 幸 运 的 是 ， 
在 进入 下 一 个 循环 时 ,也 步 把 这 种 差距 又 降 到 了 0。 

EM 算法 还 包含 一 些 不 同 的 见解 。 首 先 , 它 包 含 了 学 习 过 程 的 一 个 基本 框架 ,就 
是 我 们 通过 更 新 模型 参数 来 提高 整个 数据 集 的 似 然 ， 其 中 缺失 变量 的 值 是 通过 后 验 
分 布 来 估计 的 。 这 种 特定 的 性 质 并 不 是 EM 算法 独 有 的 。 例 如 ， 使 用 梯度 下 降 来 最 
大 化 对 数 似 然 函 数 的 方法 也 有 相同 的 性 质 。 计 算 对 数 似 然 函 数 的 梯度 需要 对 隐藏 单 
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元 的 后 验 分 布 求 期 望 。EM 算法 另 一 个 关键 的 性 质 是 当 我 们 移动 到 另 一 个 9 时 候 ， 
我 们 仍然 可 以 使 用 旧 的 分 布 g。 在 传统 机 器 学 习 中 ， 这 种 特有 的 性 质 在 推导 大 M 
步 更 新 时 候 得 到 了 广泛 的 应 用 。 在 深度 学 习 中 ， 大 多 数 模 型 太 过 于 复杂 以 致 于 在 最 
优 大 M 步 更 新 中 很 难得 到 一 个 简单 的 解 。 所 以 EM 算法 的 第 二 个 特质 ,更 多 为 其 所 
独 有 ， 较 少 被 使 用 。 


19.3 ”最 大 后 验 推断 和 稀疏 编码 


我 们 通常 使 用 推断 (inference ) 这 个 术语 来 指 代 给 定 一 些 其 他 变量 的 情况 下 计 
算 某 些 变量 概率 分 布 的 过 程 。 当 训练 带 有 潜 变 量 的 概率 模型 时 ， 我 们 通常 关注 于 计 
算 p(h | v)。 男 一 种 可 选 的 推断 形式 是 计算 一 个 缺失 变量 的 最 可 能 值 来 代替 在 所 有 可 
能 值 的 完整 分 布 上 的 推断 。 在 潜 变 量 模型 中 ， 这 意味 着 计算 





h* =argmax p(h| v). (19.9) 
h 


这 被 称 作 最 大 后 验 (Maximum A Posteriori ) HEW, MJEK MAP 推断 。 

MAP 推断 并 不 被 视 作 是 一 种 近似 推断 ， 它 只 是 精确 地 计算 了 最 有 可 能 的 一 个 
hr 。 然 而， 如 果 我 们 希望 设计 一 个 最 大 化 Lv, h, gq) 的 学 习 过 程 ， 那 么 把 MAP 推断 
视 作 是 输出 一 个 g 值 的 学 习 过 程 是 很 有 帮助 的 。 在 这 种 情况 下 , 我 们 可 以 将 MAP HE 
朵 视 作 是 近似 推断 ， 因 为 它 并 不 能 提供 一 个 最 优 的 q。 

我 们 回 过 头 来 看 看 第 19.1 节 中 所 描述 的 精确 推 新 ， 它 指 的 是 关于 一 个 在 无 限制 
的 概率 分 布 族 中 的 分 布 q 使 用 精确 的 优化 算法 来 最 大 化 














L(v, 0, q) = Ep~allog p(h, v)] + H(q). (19.10) 


我 们 通过 限定 分 布 gq 属于 某 个 分 布 族 ， 能 够 使 得 MAP 推断 成 为 一 种 形式 的 近似 推 
it, Ai, RIST q 满足 一 个 Dirac 分 布 : 


q(h| v) = 5(h—p). (19.11) 


这 也 意味 着 现在 我 们 可 以 通过 j 来 完全 控制 分 布 9。 通 过 将 C 中 不 随 pe 变化 的 项 
丢弃 ， 我 们 只 需 解决 一 个 优化 问题 : 


p* =argmax logp(h = u, v), (19.12) 
H 
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这 等 价 于 MAP 推断 问题 


h* = argmax p(h| v). (19.13) 
h 











因此 我 们 能 够 证 明 一 种 类 似 于 EM 算法 的 学 习 算 法 ， 其 中 我 们 轮流 迭代 两 步 ， 
一 步 是 用 MAP 推断 估计 出 rr,， 男 一 步 是 更 新 9 来 增 大 logp(h*, v) A EM 算法 角 
度 看 ， 这 也 是 对 L 的 一 种 形式 的 坐标 上 升 ， 交 蔡 迭 代 时 通过 推断 来 优化 关于 gq AY L 
以 及 通过 参数 更 新 来 优化 关于 9 的 C。 作 为 一 个 整体 ， 这 个 算法 的 正确 性 可 以 得 到 
保证 ， 因 为 C 是 logp(w) 的 下 界 。 在 MAP 推断 中 ,这 个 保证 是 无 效 的 ， 因 为 Dirac 
分 布 的 焙 的 微分 趋 近 于 负 无 穷 ， 使 得 这 个 界 会 无 限 地 松 。 然 而 ， 人 为 加 入 一 些 u W 
噪声 会 使 得 这 个 界 又 有 了 意义 。 

MAP 推断 作为 特征 提取 器 以 及 一 种 学 习 机 制 被 广泛 地 应 用 在 了 深度 学 习 中 。 它 
主要 用 于 稀 玻 编码 模型 中 。 

我 们 回 过 头 来 看 第 13.4 市 中 的 稀 玖 编码 ， 稀 玖 编码 是 一 种 在 隐藏 单 元 上 加 上 了 
诱导 稀 玻 性 的 先 验 知识 的 线性 因子 模型 。 一 个 常用 的 选择 是 可 分 解 的 Laplace 先 验 ， 
表示 为 

















和 
p(hi) = 了 exp(—Alhi|). (19.14) 
可 见 的 节点 是 由 一 个 线性 变化 加 上 噪声 生成 的 : 
plv | h) =N(v; Wh + b, 8-'D). (19.15) 


分 布 p(h | v) 难以 计算 ， 甚 至 难以 表达 。 每 一 对 hi, hy 变量 都 是 v 的 母 节 点 。 
这 也 意味 着 当 v 可 被 观察 时 ， 图 模型 包含 了 一 条 连接 hi M h; 的 活跃 路 径 。 因 此 
p(h| v) 中 所 有 的 隐藏 单元 都 包含 在 了 一 个 巨大 的 团 中 。 如 果 是 高 斯 模型 ， 那 么 这 些 
相互 作用 关系 可 以 通过 协 方差 矩阵 来 高 效 地 建 模 。 然 而 稀疏 型 先 验 使 得 这 些 相 互 作 
用 关系 并 不 服从 高 斯 分 布 。 

分 布 p(x | h) 的 难处 理性 导致 了 对 数 似 然 及 其 梯度 也 很 难得 到 。 因 此 我 们 不 能 
使 用 精确 的 最 大 似 然 估 计 来 进行 学 习 。 取 而 代 之 的 是 ， 我 们 通过 MAP 推断 以 及 最 
大 化 由 以 h 为 中 心 的 Dirac 分 布 所 定义 而 成 的 ELBO 来 学 习 模 型 参数 。 

如 果 我 们 将 训练 集中 所 有 的 向 量 疡 拼 成 矩阵 五 ， 并 将 所 有 的 向 量 v 拼 起 来 组 成 
矩阵 了 ， 那 么 稀 玻 编码 问题 意味 着 最 小 化 

JH, W= H+ (VvV- HW") . 


2 
PE aa i,j 
ij ij 











(19.16) 
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为 了 避免 如 极端 小 的 H 和 极端 大 的 三 这 样 的 病态 的 解 ， 大 多 数 稀疏 编码 的 应 用 包 
含 了 权重 衰减 或 者 对 五 列 范 数 的 限制 。 

我 们 可 以 通过 交 蔡 迭代 ， 分别 关 于 五 和 W 最 小 化 J 的 方式 来 最 小 化 Jo 两 个 
子 问题 都 是 凸 的 。 事 实 上 ， 关 于 OW 的 最 小 化 问题 就 是 一 个 线性 回归 问题 。 然 而 关于 
这 两 个 变量 同时 最 小 化 J 的 问题 通常 并 不 是 凸 的 。 

关于 五 的 最 小 化 问题 需要 某 些 特别 设计 的 算法 ,例如 特征 符号 搜索 方法 (Lee 
et al., 2007)。 





19.4 ” 变 分 推断 和 变 分 学 习 


我 们 已 经 说 明 过 了 为 什么 证 据 下 界 Lv, 0,9) 是 log p(w; 0) 的 一 个 下 界 、 如 何 将 
推断 看 作 是 关于 分 布 g 最 大 化 L 的 过 程 以 及 如 何 将 学 习 看 作 是 关于 参数 9 最 大 化 C 
的 过 程 。 我 们 也 讲 到 了 EM 算法 在 给 定 了 分 布 q 的 条 件 下 能 够 进行 大 学 习 步 又 ， 而 
基于 MAP 推断 的 学 习 算法 则 是 学 习 一 个 p(h | v) 的 点 估计 而 非 推 断 整 个 完整 的 分 
布 。 在 这 里 我 们 介绍 一 些 变 分 学 习 中 更 加 通用 的 算法 。 

变 分 学 习 的 核心 思想 就 是 我 们 在 一 个 关于 g 的 有 约束 的 分 布 族 上 最 大 化 C。 选 
择 这 个 分 布 族 时 应 该 考虑 到 计算 E log p(h, v) 的 难 易 度 。 一 个 典型 的 方法 就 是 添加 
分 布 g 如 何 分 解 的 假设 。 

一 种 常用 的 变 分 学 习 的 方法 是 加 入 一 些 限制 使 得 g 是 一 个 因子 分 布 : 


alh | v) = [La | v). (19.17) 























这 被 称 为 均值 场 ( mean-field) 方法 。 更 一 般 地 说 ， 我 们 可 以 通过 选择 分 布 g 的 形 
式 来 选择 任何 图 模型 的 结构 ， 通 过 选择 变量 之 间 的 相互 作用 来 灵活 地 决定 近似 程度 
的 大 小 。 这 种 完全 通用 的 图 模型 方法 被 称 为 结构 化 变 分 推断 (structured variational 
inference ) (Saul and Jordan, 1996). 

变 分 方法 的 优点 是 我 们 不 需要 为 分 布 4 设 定 一 个 特定 的 参数 化 形式 。 我 们 设 定 
它 如 何 分 解 ， 之 后 通过 解决 优化 问题 来 找 出 在 这 些 分 解 限 制 下 最 优 的 概率 分 布 。 对 
离散 型 潜 变 量 来 说 ， 这 意味 着 我 们 使 用 传统 的 优化 技巧 来 优化 描述 分 布 9 的 有 限 个 
变量 。 对 连续 型 潜 变 量 来 说 ， 这 意味 着 我 们 使 用 一 个 被 称 为 变 分 法 的 数学 分 文 工 具 
来 解决 函数 空间 上 的 优化 问题 。 然 后 决定 哪 一 个 函数 来 表示 分 布 9。 变 分 法 是 “ 变 分 
学 习 ” 或 者 “ 变 分 推 朵 ”这些 名 字 的 来 因 ， 尽 管 当 潜 变 量 是 离散 时 变 分 法 并 没有 用 武 
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之 地 。 当 遇 到 连续 型 潜 变 量 时 ， 变 分 法 不 需要 过 多 地 人 工 选 择 模型 ， 是 一 种 很 有 用 
的 工具 。 我 们 只 需要 设 定 分 布 g 如何 分 解 ， 而 不 需要 去 猜测 一 个 特定 的 能 够 精确 近 
似 原 后 验 分 布 的 分 布 qo 

因为 L(v,0,¢q) 被 定义 成 logp(w; 0) — DkL(q(h | v)||p(h | wv;0))， 我们 可 以 认为 
关于 q 最 大 化 L 的 问题 等 价 于 (关于 q) 最 小 化 Dkr(q(h | v)\[p(h| v)). FEA 
情况 下 ， 我 们 要 用 q KWE p。 然 而 ,与 以 前 方法 不 同 ， 我们 使 用 KL 散 度 的 相 
反方 向 来 拟 合 一 个 近似 。 当 我 们 使 用 最 大 似 然 估 计 来 用 模型 拟 合 数据 时 ， 我 们 最 小 
化 DkL(paatallpmoaa)。 如 图 3.6 所 示 ， 这 意味 着 最 大 似 然 鼓励 模型 在 每 一 个 数据 达 
到 高 概率 的 地 方 达到 高 概率 ， 而 基于 优化 的 推断 则 鼓励 了 q 在 每 一 个 真实 后 验 分 
布 概率 低 的 地 方 概率 较 小 。 这 两 种 基于 KL 散 度 的 方法 都 有 各 自 的 优点 与 缺点 。 选 
择 哪 一 种 方法 取决 于 在 具体 每 一 个 应 用 中 哪 一 种 性 质 更 受 偏好 。 在 基于 优化 的 推断 
问题 中 ， 从 计算 角度 考虑 ， 我 们 选择 使 用 DkL(g(h | vloh | wv))。 具 体 地 说 ,计算 
Dxi(q(h | olp( 关 | v)) 涉及 到 了 计算 分 布 q 下 的 期 望 。 所 以 通过 将 分 布 q 设计 得 较 
为 简单 ,我 们 可 以 简化 求 所 需要 的 期 望 的 计算 过 程 。KL 散 度 的 相反 方向 需要 计算 真 
实 后 验 分 布下 的 期 望 。 因 为 真实 后 验 分 布 的 形式 是 由 模型 的 选择 决定 的 ， 所 以 我 们 
不 能 设计 出 一 种 能 够 精确 计算 Dri(p(h | (天 | wv)) 的 开销 较 小 的 方法 。 























19.4.1 AMPTE 


关于 离散 型 潜 变 量 的 变 分 推断 相对 来 说 比较 直接 。 我 们 定义 一 个 分 布 g， 通 常 
分 布 4 的 每 个 因子 都 由 一 些 离散 状态 的 可 查询 表格 定义 。 在 最 简单 的 情况 中 ,hh 
是 二 值 的 并 且 我 们 做 了 均值 场 假定 ， 分布 q 可 以 根据 每 一 个 hi 分 解 。 在 这 种 情况 
下 ,我 们 可 以 用 一 个 向 量 h 来 参数 化 分 布 g，hh 的 每 一 个 元 素 都 代表 一 个 概率 ， 即 
q(hi=1|»)= hio 

在 确定 了 如 何 表示 分 布 9 以 后 ， 我 们 只 需要 优化 它 的 参数 。 在 离散 型 潜 变 量 模 
型 中 ， 这 是 一 个 标准 的 优化 问题 。 基 本 上 分 布 q 的 选择 可 以 通过 任何 优化 算法 解决 ， 
比如 梯度 下 降 算法 。 

因为 它 在 许多 学 习 算 法 的 内 循环 中 出 现 ， 所 以 这 个 优化 问题 必须 可 以 很 快 求解 。 
为 了 追求 速度 ， 我 们 通常 使 用 特殊 设计 的 优化 算法 。 这 些 算法 通常 能 够 在 极 少 的 循 
环 内 解决 一 些小 而 简单 的 问题 。 一 个 常见 的 选择 是 使 用 不 动 点 方程 ， 换 句 话 说 ， 就 
是 解 关于 hy 的 方程 





L=0. (19.18) 
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我 们 反复 地 更 新 hh 不 同 的 元 素 直 到 满足 收敛 准则 。 

为 了 具体 化 这 些 描述 ， 我 们 接 下 来 会 讲 如 何 将 变 分 推断 应 用 到 二 值 稀 玻 编码 
( binary sparse coding ) 模型 ( 这 里 我 们 所 描述 的 模型 是 Henniges et al. (2010) 提出 
的 ， 但 是 我 们 采用 了 传统 、 通 用 的 均值 场 方法 ， 而 原文 作者 采用 了 一 种 特殊 设计 的 
算法 ) 中 。 数 学 推导 过 程 非常 详细 ， 为 希望 完全 了 解 我 们 描述 过 的 变 分 推 亲 和 变 分 
学 习 高 级 概念 描述 的 读者 所 准备 。 而 对 于 并 不 计划 推导 或 者 实现 变 分 学 习 算 法 的 读 
者 来 说 ， 可 以 放心 跳 过 ， 直 接 阅 读 下 一 节 ， 这 并 不 会 遗漏 新 的 高 级 概念 。 建 议 那些 
从 事 二 值 稀 玻 编 码 研究 的 读者 可 以 重新 看 一 下 第 3.10 节 中 描述 的 一 些 经 常 在 概率 模 
型 中 出 现 的 有 用 的 函数 性 质 。 我 们 在 推导 过 程 中 随意 地 使 用 了 这 些 性 质 ， 并 没有 特 
别 强调 它们 。 

在 二 值 稀 琉 编码 模型 中 ， 输 入 ve R"， 是 由 模型 通过 添加 高 斯 噪声 到 mm 个 或 
有 或 无 的 不 同 成 分 的 和 而 生成 的 。 每 一 个 成 分 可 以 是 开 或 者 关 的 ， 对 应 着 隐藏 单 
Ju he {0,1}™: 











p(hi = 1) = o(bi), (19.19) 
plv | h) = N (v; Wh, 3"), (19.20) 




















其 中 bP ER, WET AAEE, BET 
EJ WITAM EAE 
使 用 最 大 似 然 来 训练 这 样 一 个 模型 需要 对 参数 进行 求 导 。 我 们 考虑 对 其 中 一 
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个 偏 置 进行 求 导 的 过 程 : 






































二 log p(v) (19.21) 
= aan) (19.22) 
a (19.23) 
o oe [A (19.24) 
S Bar) (19:25) 
Da | yan (19.26) 
= De gy log P(A) (19.27) 


这 需要 计算 p(h | v) FWE, PERE, p(h| v) 是 一 个 很 复杂 的 分 布 。 关 于 
p(h, v) 和 p(h | v) 的 图 结构 可 以 参考 图 19.2 。 隐 藏 单元 的 后 验 分 布 对 应 的 是 关于 隐 
藏 单元 的 完全 图 ， 所 以 相对 于 暴力 算法 ， 变 量 消去 算法 并 不 能 有 助 于 提高 计算 期 望 
的 效率 。 














图 19.2: 包含 四 个 隐藏 单元 的 二 值 稀 玻 编码 的 图 结构 。( 堪 ) p(h, v) 的 图 结构 。 要 注意 边 是 有 向 的 ， 
每 两 个 隐藏 单元 都 是 每 个 可 见 单元 的 共 父 。( 右 ) p(h, v) 的 图 结构 。 为 了 解释 共 父 之 间 的 活跃 路 径 ， 
后 验 分 布 所 有 隐藏 单元 之 间 都 有 边 。 











取而代之 的 是 ,我 们 可 以 应 用 变 分 推 新 和 变 分 学 习 来 解决 这 个 难点 。 
我 们 可 以 做 一 个 均值 场 近似 : 
alh | v) = [a0 | v). (19.28) 
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二 值 稀 朴 编码 中 的 潜 变 量 是 二 值 的 ， 所 以 为 了 表示 可 分 解 的 q 我 们 假设 对 m 
个 Bernoulli 分 布 q(h; | v) 建 模 。 表 示 Bernoulli 分 布 的 一 种 很 自然 的 方法 是 使 用 一 
个 概率 向 量 h, WE q(hi | v) = 访 。 为 了 避免 计算 中 的 误差 ， 比 如 说 计算 log hy 时 ， 
我 们 对 hy 添加 一 个 约束 ， 即 hy 不 等 于 0 或 者 1。 

我 们 将 会 看 到 变 分 推断 方程 理论 上 永远 不 会 赋予 A 0 或 者 1。 然 而 在 软件 实现 
过 程 中 ， 机 器 的 舍 入 误差 会 导致 0 或 者 1 的 值 。 在 二 值 稀 蚊 编码 的 软件 实现 中 ,我 
们 希望 使 用 一 个 没有 限制 的 变 分 参数 向 量 z 以 及 通过 关系 h= o(z) 来 获得 h。 因 此 
通过 使 用 等 式 log o(z;) = 一 C( 一 Zz) 来 建立 sigmoid 函数 和 softplus 函数 的 关系 ， 我 们 
可 以 放心 地 在 计算 机 上 计算 log hi. 

在 开始 二 值 稀 玻 编码 模型 中 变 分 学 习 的 推导 时 ， 我 们 首先 说 明了 均值 场 近似 的 
使 用 可 以 使 得 学 习 过 程 更 加 简单 。 















































证 据 下 界 可 以 表示 为 
L(v,,q) (19.29) 
=E,W [log p(h, v)| + H(q) (19.30) 
=En~,[log p(h) + log p(v | h) — log g(h | v)] (19.31) 
Enna | > log p(he) + Y log p(w; |h) ~ X log (h: | o) (19.32) 
-> [hs (log o(bi) — log fy) F- hi) log o(—b,) — log(1 — hi) (19.33) 
+ Ehvo Sie V&n 5 (vi wn) (19.34) 
y [hi (log o(bi) — log hi) + (1 — hj) (log o(—b;) — log(1 — hi) (19.35) 
N Es -a — 2u; W;, A+ |W, ht WaWa) | 
i=1 j kAj 


(19.36) 


尽管 这 些 方程 从 美学 观点 来 看 有 些 不 尽 如 人 意 。 他 们 展示 了 L 可 以 被 表示 为 少量 简 
单 的 代数 运算 。 因 此 证 据 下 界 C 是 易于 处 理 的 。 我 们 可 以 把 C 看 作 是 难以 处 理 的 对 
数 似 然 函 数 的 一 个 替代 。 

原则 上 说 ， 我 们 可 以 使 用 关于 v 和 hh 的 梯度 上 升 。 这 会 成 为 一 个 推 新 和 学 习 算 
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法 的 完美 组 合 。 但是， 由 于 两 个 原因 ,， 我们 往往 不 这 么 做 。 第 一 点 ,对 每 一 个 v 我 们 
需要 存储 hh。 我 们 通常 更 加 偏向 于 那些 不 需要 为 每 一 个 样本 都 准备 内 存 的 算法 。 如 
果 我 们 需要 为 每 一 个 样本 都 存储 一 个 动态 更 新 的 向 量 ， 使 得 算法 很 难处 理 上 亿 的 样 
本 。 第 二 个 原因 就 是 为 了 能 够 识别 v 的 内 容 ， 我 们 希望 能 够 有 能 力 快 速 提取 特征 ho 
在 实际 应 用 场景 中 ， 我 们 需要 在 有 限时 间 内 计算 出 h。 

由 于 以 上 两 个 原因 ， 我 们 通常 不 会 采用 梯度 下 降 来 计算 均值 场 参数 h。 取 而 代 
之 的 是 ， 我 们 使 用 不 动 点 方程 来 快速 估计 。 

不 动 点 方程 的 核心 思想 是 我 们 寻找 一 个 关于 h 的 局 部 极 大 点 ， 满 足 
ViL(v,0,h) = 0。 我 们 无 法 同时 高 效 地 计算 所 有 h 的 元 素 。 然而 ,我们 可 以 
解决 单个 变量 的 问题 : 























L(v,0, h) = 0. (19.37) 


我 们 可 以 迭代 地 将 这 个 解 应 用 到 i = 1,...,m， 然 后 重复 这 个 循环 直到 我 们 满足 
了 收敛 准则 。 常 见 的 收敛 准则 包含 了 当 整 个 循环 所 改进 的 C 不 超过 预 设 的 容 差 量 时 
停止 ,或 者 是 循环 中 改变 的 h 不 超过 某 个 值 时 停止 。 

在 很 多 不 同 的 模型 中 ， 和 迭代 的 均值 场 不 动 点 方程 是 一 种 能 够 提供 快速 变 分 推 源 
的 通用 算法 。 为 了 使 它 更 加 具体 ， 我 们 详细 地 讲 一 下 如 何 推 导出 二 值 稀 玖 编码 模型 
的 更 新 过 程 。 

首先 ,我 们 给 出 了 对 hi 的 导数 表达 式 。 为 了 得 到 这 个 表达 式 , 我 们 将 式 (19.36) 代 
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人 到 式 (19.37) 的 左边 : 
9 L(v, 0, h) (19.38) 
a 
0 m 





》 [fj og o(b;) — log ij) + (1 = h;)(ogo(—b;) —log(1—hy))| (19.39) 


j=l 
1€ 。 P I 
+ 5 x 区 a — bj GS — w; Wij:h+ 5 W? phr + 52 Wawata) | 
j=1 k 





ah: 

















7 天 大 
(19.40) 
=log o(b;) — log h; — 1 + log(1 — h;) + 1 — logo(=0;) (19.41) 
n 1 A 
T 2 bj (owu 一 一 y Wj,k Wish) (19.42) 
j=1 kAi 
A A 1 > 
=b; — log h; + log(1 — hi)+ v' BW. — : WiBW.i— >》 WL BW.iħj. (19.43) 
j+i 
为 了 应 用 固定 点 更 新 的 推断 规则 ， 我 们 通过 令 式 (19.43) 等 于 0 来 解 hi: 
A 1 i 
Fi 





此 时 ， 我 们 可 以 发 现 图 模型 中 的 推 关 和 循环 神经 网 络 之 间 存 在 着 紧密 的 联系 。 
具体 地 说 ， 均 值 场 不 动 点 方程 定义 了 一 个 循环 神经 网 络 。 这 个 神经 网 络 的 任务 就 是 
完成 推 新 。 我 们 已 经 从 模型 描述 的 角度 介绍 了 如 何 推导 这 个 网 络 ， 但 是 直接 训练 这 
个 推断 网 络 也 是 可 行 的 。 有 关 这 种 思路 的 一 些 想 法 在 第 二 十 章 中 有 所 描述 。 

在 二 值 稀 玻 编码 模型 中 ， 我 们 可 以 发 现 式 (19.44) 中 描述 的 循环 网 络 连接 包含 
了 根据 相 邻 隐藏 单元 变化 值 来 反复 更 新 当前 隐藏 单元 的 操作 。 输 入 层 通常 给 隐藏 单 
元 发 送 一 个 固定 的 信息 w 8 三， 然而 隐藏 单元 不 断 地 更 新 互相 传送 的 信息 。 有 具体 地 
说 ， 当 hh 和 hh; 两 个 单元 的 权重 向 量 平行 时 ， 它 们 会 互相 抑制 。 这 也 是 一 种 形式 的 
竞争 一 一 两 个 解释 输入 的 隐藏 单元 之 间 ， 只 有 一 个 解释 得 更 好 的 才 被 允许 继续 保持 
活跃 。 在 二 值 稀 玻 编 码 的 后 验 分 布 中 ,均值 场 近 似 试 图 捕获 到 更 多 的 相 消 解释 相互 
作用 ， 从 而 产生 了 这 种 竞争 。 事 实 上 ， 相 消解 释 效 应 会 产生 一 个 多 峰值 的 后 验 分 布 ， 
以 致 于 如 果 我 们 从 后 验 分 布 中 采样 ， 一 些 样 本 在 一 个 单元 是 活跃 的 ， 其 他 的 样本 在 
另 一 个 单元 活跃 ， 只 有 很 少 的 样本 能 够 两 者 都 处 于 活跃 状态 。 不 幸 的 是 , 相 消解 释 作 
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ha 


用 无 法 通过 均值 场 中 因子 分 布 q 来 建 模 ， 因 此 建 模 时 均值 场 近似 只 能 选择 一 个 峰值 。 
这 个 现象 的 一 个 例子 可 以 参考 图 3.6 。 


我 们 将 式 (19.44) 重 写成 等 价 的 形式 来 揭示 一 些 深层 的 含义 : 


h= ofu (9-3 wh) ew- dmaw,) (19.45) 
在 这 种 新 的 形式 中 ,我 们 可 以 将 v 一 并 ji Wih 看 作 是 输入 ， 而 不 是 v。 因此, 我 
们 可 以 把 第 i 个 单元 视 作 给 定 其 他 单元 编码 时 给 v 中 的 剩余 误差 编码 。 由 此 我 们 可 
以 将 稀 玻 编码 视 作 是 一 个 迭代 的 自 编码 器 ， 将 输入 反复 地 编码 解码 ， 试 图 在 每 一 轮 
迭代 后 都 能 修复 重 构 中 的 误差 。 

在 这 个 例子 中 ， 我 们 已 经 推导 出 了 每 一 次 更 新 单个 结 点 的 更 新 规则 。 如 果 能 够 
同时 更 新 更 多 的 结 点 ， 那 会 更 令 人 满意 。 菏 些 图 模型 ， 比 如 深度 玻 尔 兹 曼 机 ， 我 们 
可 以 同时 解 出 有 中 的 许多 元 素 。 不 幸 的 是 ， 二 值 稀 疏 编码 并 不 适用 这 种 块 更 新 。 取 
而 代 之 的 是 ， 我 们 使 用 一 种 被 称 为 衰减 ( damping ) 的 启发 式 技 巧 来 实现 块 更 新 。 
在 衰减 方法 中 ， 对 A 中 的 每 一 个 元 素 我 们 都 可 以 解 出 最 优 值 ， 然 后 对 于 所 有 的 值 都 
在 这 个 方向 上 移动 一 小 步 。 这 个 方法 不 能 保证 每 一 步 都 能 增加 L， 但 是 对 于 许多 模 
型 都 很 有 效 。 关 于 在 信息 传输 算法 中 如 何 选择 同步 程度 以 及 使 用 衰减 策略 可 以 参考 
Koller and Friedman (2009) 。 




















19.4.2 Bae 





在 继续 介绍 变 分 学 习 之 前 ， 我 们 有 必要 简单 地 介绍 一 种 变 分 学 习 中 重要 的 数学 
TH: 变 分 法 (calculus of variations )。 

许多 机 器 学 习 的 技巧 是 基于 寻找 一 个 输入 向 量 9 e R" 来 最 小 化 孔 数 J(9)， 
使 得 它 取 到 最 小 值 。 这 个 步骤 可 以 利用 多 元 微 积分 以 及 线性 代数 的 知识 找到 满足 
VeJ(9) = 0 的 临界 点 来 完成 。 在 某 些 情况 下 ,我 们 和 希望 能 够 解 一 个 函数 f(z)， 比 如 
当 我 们 和 希望 找到 一 些 随 机 变量 的 概率 密度 函数 时 。 正 是 变 分 法 能 够 让 我 们 完成 这 个 
目标 。 

PRA 广 的 函数 被 称 为 泛 函 (functional) J[f]。 正 如 我 们 许多 情况 下 对 一 个 函 
数 求 关于 以 向 量 的 元 素 为 变量 的 偏 导 数 一 样 ,我们 可 以 使 用 泛 函 导数 ( functional 
derivative )， 即 在 任意 特定 的 z 值 ， 对 一 个 泛 函 JS] 求 关 于 函数 f(x) 的 导数 ， 这 
也 被 称 为 变 分 导数 (variational derivative), Wek J 的 关于 函数 f 在 点 x bY pk 
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导数 被 记 作 ziJ- 
完整 正式 的 泛 函 导 数 的 推导 不 在 本 书 的 范围 之 内 。 对 于 我 们 的 目标 而 言 ， 了 解 
可 微分 函数 f (a) 以 及 带 有 连续 导数 的 可 微分 函数 g(y, z) 就 足够 了 
0 


Te | 0 e= 5, (2), 2). (19.46) 


为 了 使 上 述 等 式 更 加 直观 ， 我 们 可 以 把 f(z) 看 作 是 一 个 有 着 无 穷 不 可 数 多 元 素 的 向 
量 ， 由 一 个 实数 向 量 x 表示 。 在 这 里 ( 看 作 是 一 个 不 完全 的 介绍 )， 这 种 关系 式 中 描 
述 的 泛 函 导数 和 向 量 9 ER” 的 导数 相同 : 





O . 0 
ag 2 9(071) = Fp 98%). (19.47) 
2 了 KA 





在 其 他 机 器 学 习 文献 中 的 许多 结果 则 使 用 了 更 为 通用 的 欧 拉 - 拉 格 朗 日 方程 Euler- 
Lagrange Equation )， 它 能 够 使 得 g 不 仅 依 赖 于 f 的 导数 而 且 也 依赖 于 f 的 值 。 但 
是 在 本 书 中 我 们 不 需要 这 个 通用 版 本 。 

为 了 关于 一 个 向 量 优化 某 个 函数 ， 我 们 求 出 了 这 个 函数 关于 这 个 向 量 的 梯度 ， 
然后 找 这 个 梯度 中 每 一 个 元 素 都 为 0 的 点 。 类 似 地 ， 我 们 可 以 通过 寻找 一 个 函数 使 
得 泛 了 渔 导数 的 每 个 点 都 等 于 0 从 而 来 优化 一 个 泛 函 。 

下 面 介绍 一 个 该 过 程 如 何 和 运行 的 例子 ， 我 们 考虑 寻找 一 个 定义 在 x CR 上 的 有 
ERAT HS PE PRI, FATT Sk RAF RR p(x) AI, EXA 
F: 














Hlp] = -E, log p(z). (19.48) 





对 于 连续 的 值 ， 这 个 期 望 可 以 被 看 作 一 个 积分 : 
Hlp| = 一 f ra) ospr. (19.49) 


我 们 不 能 简单 地 仅仅 关于 函数 p(z) 最 大 化 五 [p]， 因 为 那样 的 话 结果 可 能 不 是 一 
个 概率 分 布 。 为 了 解决 这 个 问题 ， 我 们 需要 使 用 一 个 拉 格 明日 乘 子 来 添加 一 个 分 布 
ple) 积分 值 为 1 的 约束 。 同 样 地 ， 当 方差 增 大 时 ， 焙 也 会 无 限制 地 增加 。 因 此 ， 寻 
找 哪 一 个 分 布 有 最 大 炉 这 个 问题 是 没有 意义 的 。 但 是 ,在 给 定 固定 的 方差 o? 时 ,我 
们 可 以 寻找 一 个 最 大 粒 的 分 布 。 最 后 ， 这 个 问题 还 是 从 定 的 ， 因 为 在 不 改变 粒 的 条 
件 下 一 个 分 布 可 以 被 随意 地 改变 。 为 了 获得 一 个 唯一 的 解 ， 我 们 再 加 一 个 约束 : 分 
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布 的 均值 必须 为 4。 那 么 这 个 问题 的 拉 格 朗 日 泛 函 如 下 : 
f= di( f vlc) -1) +r 


= f (div) + dap(o)e + Aaple)(e = 1)? = pla) tog p(x) dr — Ai = ps = oe 




















z] — u) +A3(E[(w — u)?] — o°) + H[p] (19.50) 

















(19.51) 
为 了 关于 p 最 小 化 拉 格 朗 日 乘 子 ,我 们 令 泛 函 导数 等 于 0: 
Va, E = hy + Aga + àz (£ — u}? — 1 — log p(x) = 0. (19.52) 


ôp(x) 


这 个 条 件 告诉 我 们 ple) 的 泛 函 形式 。 通 过 代数 运算 重组 上 述 方程 ， 我 们 可 以 得 
到 





p(z) = exp (Xi + àx + àz(£ — u)? = 1). (19.53) 


我 们 并 没有 直接 假设 p(x) 取 这 种 形式 ， 而 是 通过 最 小 化 泛 函 从 理论 上 得 到 了 这 
个 p(z) 的 表达 式 。 为 了 解决 这 个 最 小 化 问题 ,我 们 需要 选择 A 的 值 来 确保 所 有 的 约 
束 都 能 够 满足 。 我们 有 很 大 的 自由 去 选择 A. 因为 只 要 满足 约束 , 拉 格 朗 日 关于 入 这 
个 变量 的 梯度 就 为 0。 为 了 满足 所 有 的 约束 ， 我 们 可 以 令 A = 1 — logo v27, = 0, 
hs = 一 区? ， 从 而 得 到 








p(z) =N (z; u, 0°). (19.54) 





这 也 是 当 我 们 不 知道 真实 的 分 布 时 总 是 使 用 正 态 分 布 的 一 个 原因 。 因 为 正 态 分 布 拥 
有 最 大 的 炉 ， 我 们 通过 这 个 假定 来 保证 了 最 小 可 能 量 的 结构 。 

当 寻 找 炉 的 拉 格 朗 日 泛 函 的 临界 点 并 且 给 定 一 个 固定 的 方差 时 ， 我 们 只 能 找到 
一 个 对 应 最 大 信 的 临界 点 。 那 最 小 化 信 的 概率 密度 函数 是 什么 样 的 呢 ?” 为 什么 我 们 
无 法 发 现 对 应 着 极 小 点 的 第 二 个 临界 点 呢 ? 原因 是 没有 一 个 特定 的 函数 能 够 达到 最 
小 的 箭 值 。 当 函数 把 越 多 的 概率 密度 加 到 zx = to 和 = 一 o 两 个 点 上 ， 越 少 的 
概率 密度 到 其 他 点 上 时 ， 它 们 的 箭 值 会 减少 ， 而 方差 却 不 变 。 然 而 任何 把 所 有 的 权 
重 都 放 在 这 两 点 的 函数 的 积分 都 不 为 1， 不 是 一 个 有 效 的 概率 分 布 。 所 以 不 存在 一 
个 最 小 炉 的 概率 密度 函数 ， 就 像 不 存在 一 个 最 小 的 正 实数 一 样 。 然 而 ， 我 们 发 现存 
在 一 个 收敛 的 概率 分 布 的 序列 ， 收 全 到 权重 都 在 两 个 点 上 。 这 种 情况 能 够 退化 为 混 
合 Dirac 分 布 。 因 为 Dirac 分 布 并 不 是 一 个 单独 的 概率 密度 函数 ， 所 以 Dirac 分 布 或 
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者 混合 Dirac 分 布 并 不 能 对 应 函数 空间 的 一 个 点 。 所 以 对 我 们 来 说 ， 当 寻找 一 个 泛 
函 导数 为 0 的 函数 空间 的 点 时 ， 这 些 分 布 是 不 可 见 的 。 这 就 是 这 种 方法 的 局 限 之 处 。 
诸如 Dirac 分 布 这 样 的 分 布 可 以 通过 其 他 方法 被 找到 ， 比 如 可 以 先 猜 测 一 个 解 ， 然 后 
证 明 它 是 满足 条 件 的 。 





当 我 们 的 图 模型 包含 连续 型 潜 变 量 时 ， 我 们 仍然 可 以 通过 最 大 化 L 进行 变 分 推 
断 和 变 分 学 习 。 然 而 ， 我 们 需要 使 用 变 分 法 来 实现 关于 q(h | v) 最 大 化 Lo 

在 大 多 数 情况 下 ， 研 究 者 并 不 需要 解决 任何 变 分 法 的 问题 。 取 而 代 之 的 是 ， 均 
值 场 固 定点 迭代 更 新 有 一 个 通用 的 方程 。 如 果 我 们 做 了 均值 场 近似 : 





alh | v) = [La | v), (19.55) 


并 且 对 任何 的 了 天 :固定 q(h; | v)， 那么 只 需要 满足 分 布 p 中 任何 联合 分 布 变量 的 
概率 值 不 为 0， 我 们 就 可 以 通过 归 一 化 下 面 这 个 未 归 一 的 分 布 














G(h; | v) = exp (En_,~q(h_;|v) log p(v, h)) (19.56) 


来 得 到 最 优 的 qli | v)。 在 这 个 方程 中 计算 期 望 就 能 得 到 正确 的 q(hi | v) 的 表达 式 。 
我 们 只 有 在 希望 提出 一 种 新 形式 的 变 分 学 习 算 法 时 才 需 要 使 用 变 分 法 来 直接 推导 q 
的 函数 形式 。 式 (19.56) 给 出 了 适用 于 任何 概率 模型 的 均值 场 近似 。 

A (19.56) 是 一 个 不 动 点 方程 ， 对 每 一 个 i 它 都 被 迭代 地 反复 使 用 直到 收敛 。 然 
而 ， 它 还 包含 着 更 多 的 信息 。 它 还 包含 了 最 优 解 取 到 的 泛 函 形式 ， 无 论 我 们 是 否 能 
够 通过 不 动 点 方程 来 解 出 它 。 这 意味 着 我 们 可 以 利用 方程 中 的 泛 函 形式 ， 把 其 中 一 
些 值 当成 参数 ， 然 后 通过 任何 我 们 想 用 的 优化 算法 来 解决 这 个 问题 。 

我 们 拿 一 个 简单 的 概率 模型 作为 例子 ， 其 中 潜 变 量 满足 he R?， 可 见 变量 只 有 
一 个 vs。 假设 p(h) = N (h;0, I) WR piv | h) =N (v; w' h;1), 我 们 可 以 积 掉 h 来 简 
化 这 个 模型 ,结果 是 关于 v 的 高 斯 分 布 。 这 个 模型 本 身 并 不 有 趣 。 只 是 为 了 说 明 变 
分 法 如 何 应 用 在 概率 建 模 之 中 ， 我 们 才 构 造 了 这 个 模型 。 
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忽略 归 一 化 常数 时 ， 真 实 的 后 验 分 布 如 下 : 





p(h| v) (19.57) 
ocp(h, v) (19.58) 
=p(hi)p(h2)p(v | h) (19.59) 
oc exp ( L h3 + (v — hıwı — hzw2)°]) (19.60) 











= exp ( shi h2 v? t hiw? + hiw? = 2uh wy m 2vhowe + 2hyw hwy). 
(19.61) 
在 上 式 中 ,我 们 发 现 由 于 带 有 hy, ho 乘积 项 的 存在 ， 真 实 的 后 验 并 不 能 关于 hi, he 
分 解 。 
应 用 式 (19.56) ， 我 们 可 以 得 到 


























(hı | v) (19.62) 
= exp (Ena~q(ha lv) log p(v, h)) (19.63) 
= exp ( — 3 Eno~g(hale) [hi + h3 + v2 + hiw + hows (19.64) 

= 2Quhyw, — whaw + 2h wi hws) ). (19.65) 





从 这 里 , 我 们 可 以 发 现 其 中 我 们 只 需要 从 q(he | v) 中 获得 两 个 有 效 值 : Ehsanjw)[h2] 


























和 Enuo [h 引 。 把 这 两 项 记 作 (ho) 和 《h2)， 我 们 可 以 得 到 : 
lh | 0) =exp(=5 [hi + (h3) +0? + hw? + (h3) (19.66) 
= 2uh wy = 2u(h2)we + 2h1 wy (he) wo]). (19.67) 


从 这 里 ， 我 们 可 以 发 现 g 的 泛 函 形式 满足 高 斯 分 布 。 因 此 ， 我 们 可 以 得 到 
q(h | v) = N(h; p, B71), 其 中 p 和 对 角 的 B 是 变 分 参数 ， 我 们 可 以 使 用 任何 方法 
来 优化 它 。 有 必要 再 强调 一 下 ， 我 们 并 没有 假设 g 是 一 个 高 斯 分 布 ， 这 个 高 斯 的 形 
式 是 使 用 变 分 法 来 关于 分 布 q 最 大 化 L 而 推导 出 来 的 。 在 不 同 的 模型 上 应 用 相同 的 
方法 可 能 会 得 到 不 同 泛 函 形式 的 分 布 q。 

当然 ， 上 述 模 型 只 是 为 了 说 明 情况 的 一 个 简单 例子 。 深 度 学 习 中 关于 变 分 学 习 
中 连续 型 变量 的 实际 应 用 可 以 参考 Goodfellow et al. (2013f)。 
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19.4.4 学 习 和 推断 之 间 的 相互 作用 

在 学 习 算 法 中 使 用 近似 推断 会 影响 学 习 的 过 程 ， 反 过 来 学 习 的 过 程 也 会 影响 推 
断 算 法 的 准确 性 。 


具体 来 说 ， 训 练 算法 倾向 于 朝 使 得 近似 推断 算法 中 的 近似 假设 变 得 更 加 真实 的 
方向 来 适应 模型 。 当 训练 参数 时 ， 变 分 学 习 增 加 














Eng log p(v, h). (19.68) 


对 于 一 个 特定 的 v， 对 于 q(h | v) 中 概率 很 大 的 hh 它 增加 了 ph |v); 对 于 q(h| v) 
中 概率 很 小 的 h 它 减 小 了 p(h |v). 

这 种 行为 使 得 我 们 做 的 近似 假设 变 得 合理 。 如 果 我 们 用 单 峰值 近似 后 验 来 训练 
模型 那么 所 得 具有 真实 后 验 的 模型 会 比 我 们 使 用 精确 推断 训练 模型 获得 的 模型 更 
接近 单 峰 值 。 

因此 , 估计 变 分 近似 对 模型 的 破坏 程度 是 很 困难 的 。 存 在 几 种 估计 log p(w) 的 方 
式 。 通 常 我 们 在 训练 模型 之 后 估计 log p(v; 9)， 然 后 发 现 它 和 L(w, 9,9) 的 差距 是 很 
小 的 。 从 这 里 我 们 可 以 得 出 结论 , 对 于 特定 的 从 学 习 过 程 中 获得 的 9 来 说 , 变 分 近似 
是 很 准确 的 。 然 而 我 们 无 法 直接 得 到 变 分 近似 普遍 很 准确 或 者 变 分 近似 几乎 不 会 对 
学 习 过 程 产生 任何 负面 影响 这 样 的 结论 。 为 了 准确 衡量 变 分 近似 带 来 的 危害 ， 我 们 
需要 知道 0* = maxe logp(v;0)。L(v,0,9) = logp(v; 0) FI log p(v; 0) < log p(v; 0*) 
同时 成 立 是 有 可 能 的 。 如 果 存 在 max, L(v,0*,q) < log p(v;6*), BÆ 0* 点 处 后 验 
分 布 太 过 复杂 使 得 gq 分布 族 无 法 准确 描述 ， 那 么 学 习 过 程 永远 无 法 到 达 0*。 这 样 的 
一 类 问题 是 很 难 发 现 的 ， 因 为 只 有 在 我 们 有 一 个 能 够 找到 9* 的 超级 学 习 算 法 时 ， 才 
能 确定 地 进行 上 述 的 比较 。 
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我 们 已 经 看 到 了 推断 可 以 被 视 作 一 个 增加 也 数 £ 值 的 优化 过 程 。 显 式 地 通 
过 和 迭代 方法 〈 比 如 不 动 点 方程 或 者 基于 梯度 的 优化 算法 ) 来 进行 优化 的 过 程 通常 
是 代价 很 高 且 耗 时 巨大 的 。 通 过 学 习 一 个 近似 推断 ， 许 多 推断 算法 避免 了 这 种 
代价 。 具体 地 说 ， 我 们 可 以 将 优化 过 程 视 作 将 一 个 输入 wv 投影 到 一 个 近似 分 布 
q* = argmax; L(v, q) 的 一 个 函数 fo 一 旦 我 们 将 多 步 的 迭代 优化 过 程 看 作 是 一 个 函 
数 ， 我 们 可 以 用 一 个 近似 函数 为 f(v 0) 的 神经 网 络 来 近似 它 。 
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19.5.1 ” 醒 眠 算法 


训练 一 个 可 以 用 v 来 推断 h 的 模型 的 一 个 主要 难点 在 于 我 们 没有 一 个 监督 训 
练 集 来 训练 模型 。 给 定 一 个 v， 我 们 无 法 获知 一 个 合适 的 ho A vv 到 h 的 映射 依赖 
于 模型 族 的 选择 ， 并 且 在 学 习 过 程 中 随 着 0 的 改变 而 变化 。 醒 眠 (wake sleep) 算 
法 (Hinton et al., 1995b; Frey et al., 1996) 通过 从 模型 分 布 中 抽取 vw 和 h 的 样本 来 
解决 这 个 问题 。 例 如 ， 在 有 向 模型 中 ， 这 可 以 通过 执行 从 h 开始 并 在 v 结束 的 原始 
采样 来 高 效 地 完成 。 然 后 这 个 推断 网 络 可 以 被 训练 来 执行 反 回 的 映射 : 预测 哪 一 个 
h 产生 了 当前 的 vo 这 种 方法 的 主要 缺点 是 我 们 将 只 能 在 那些 在 当前 模型 上 有 较 高 概 
率 的 v 值 上 训练 推断 网 络 。 在 学 习 早 期 ， 模型 分 布 与 数据 分 布 偏差 较 大 ， 因 此 推断 
网 络 将 不 具有 在 类 似 数 据 的 样本 上 学 习 的 机 会 。 

在 第 18.2 节 中 ， 我 们 看 到 睡眠 做 梦 在 人 类 和 动物 中 作用 的 一 个 可 能 解释 是 ， 做 
梦 可 以 提供 壹 特 卡 罗 训 练 算法 用 于 近似 无 向 模型 中 对 数 配 分 函数 钠 梯 度 的 负 相 样本 。 
生物 做 梦 的 另 一 个 可 能 解释 是 它 提供 来 自 p(h, v) 的 样本 ,这 可 以 用 于 训练 推断 网 络 
在 给 定 v 的 情况 下 预测 h。 在 某 些 意义 上 ， 这 种 解释 比 配 分 函数 的 解释 更 令 人 满意 。 
如 果 和 蒙特 卡 罗 算 法 仅 使 用 梯度 的 正 相 运行 几 个 步 又， 然后 仅 对 梯度 的 负 相 运 行 几 个 
步骤 ， 那 么 结果 通常 不 会 很 好 。 人 类 和 动物 通常 连续 清醒 几 个 小 时 ， 然 后 连续 睡 着 
几 个 小 时 。 这 个 时 间 表 如 何 文 持 无 向 模型 的 蒙特 卡 罗 训 练 尚 不 清楚 。 然 而 ， 基 于 最 
大 化 L 的 学 习 算 法 可 以 通过 长 时 间 调 整改 进 g 和 长 期 调整 9 来 实现 。 如 果 生 物 做 梦 
的 作用 是 训练 网 络 来 预测 g， 那 么 这 解释 了 动物 如 何 能 够 保持 清醒 几 个 小 时 (它们 
清醒 的 时 间 越 长 ，L 和 logp(v) 之 间 的 差距 越 大 ,但 是 C 仍然 是 下 限 ) 并 且 睡 眠 几 
个 小 时 〈 生 成 模型 本 身 在 睡眠 期 间 不 被 修改 )， 而 不 损害 它们 的 内 部 模型 。 当 然 ， 这 
些 想法 纯粹 是 猜测 性 的 ， 没 有 任何 确定 的 证 据 表 明 做 梦 实 现 了 这 些 目标 之 一 。 做 梦 
也 可 以 通过 从 动物 的 过 渡 模 型 ( 用 来 训练 动物 策略 ) 采样 合成 经 验 来 服务 于 强化 学 
习 而 不 是 概率 建 模 。 也 许 睡 眠 可 以 服务 于 一 些 机 带 学 习 社区 尚未 发 现 的 其 他 目的 。 
































19.5.2 ”学 成 推断 的 其 他 形式 


这 种 学 成 近似 推断 策略 已 经 被 应 用 到 了 其 他 模型 中 。Salakhutdinov and 
Larochelle (2010) 证 明了 在 学 成 推断 网 络 中 的 单 遍 传 递 相 比 于 在 深度 玻 尔 兹 曼 机 中 
的 和 欠 代 均值 场 不 动 点 方程 能 够 得 到 更 快 的 推断 。 其 训练 过 程 基于 运行 推断 网 络 ， 然 
后 运行 一 步 均 值 场 来 改进 其 估计 ， 并 训练 推断 网 络 来 输出 这 个 更 精细 的 估计 以 代替 
其 原始 估计 。 
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我 们 已 经 在 第 14.8 节 中 看 到 ， 预 测 性 的 稀 玻 分 解 模型 训练 一 个 浅 层 编码 器 网 络 ， 
从 而 预测 输入 的 稀 玻 编码 。 这 可 以 被 看 作 是 自 编码 器 和 稀 玻 编码 之 间 的 混合 。 为 模型 
设计 概率 语义 是 可 能 的 ,其 中 编码 器 可 以 被 视 为 执行 学 成 近似 MAP 推 新 。 由 于 其 浅 
层 的 编码 锅 ，PSD 不 能 实现 我 们 在 均值 场 推断 中 看 到 的 单元 之 间 的 那 种 竞争 。 然 而 ， 
该 问题 可 以 通过 训练 深度 编码 器 实 现 学 成 近似 推断 来 补救 ， 如 ISTA 技术 (Gregor 
and LeCun, 2010b)。 

近来 学 成 近似 推断 已 经 成 为 了 变 分 自 编码 器 形式 的 生成 模型 中 的 主要 方法 之 一 
(Kingma and Welling, 2014a; Rezende et al., 2014)。 在 这 种 优美 的 方法 中 ， 不 需要 
为 推断 网 络 构造 显 式 的 目标 。 反 之 ， 推 断 网 络 仅仅 被 用 来 定义 £L， 然 后 调整 推断 网 
络 的 参数 来 增 大 C。 我 们 将 在 第 20.10.3 节 中 详细 介绍 这 种 模型 。 

我 们 可 以 使 用 近似 推断 来 训练 和 使 用 很 多 不 同 的 模型 。 其 中 许多 模型 将 在 下 一 
章 中 描述 。 
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在 本 章 中 ， 我 们 介绍 几 种 具体 的 生成 模型 ， 这 些 模型 可 以 使 用 第 十 六 章 至 第 十 
九 章 中 出 现 的 技术 构建 和 训练 。 所 有 这 些 模 型 在 某 种 程度 上 都 代表 了 多 个 变量 的 概 
率 分 布 。 有 些 模型 允许 显 式 地 计算 概率 分 布 函 数 。 其 他 模型 则 不 允许 直接 评估 概率 
分 布 函 数 ， 但 支持 隐 式 获取 分 布 知识 的 操作 ， 如 从 分 布 中 采样 。 这 些 模型 中 的 一 部 
分 使 用 第 十 六 章 中 的 图 模型 语言 ， 从 图 和 因子 的 角度 描述 为 结构 化 概率 模型 。 其 他 
的 不 能 简单 地 从 因子 角度 描述 ， 但 仍然 代表 概率 分 布 。 











20.1 TREE 


玻 尔 效 曼 机 最 初 作为 一 种 广义 的 “联结 主义 ” 引入 ， 用 来 学 习 二 值 回 量 上 的 任意 
概率 分 布 (Fahlman et al., 1983; Ackley et al., 1985; Hinton et al., 1984b; Hinton and 
Sejnowski, 1986)。 玻 尔 效 受 机 的 变 体 (包含 其 他 类 型 的 变量 ) 早已 超过 了 原始 玻 尔 
效 曼 机 的 流行 程度 。 在 本 节 中 ,我 们 简要 介绍 二 值 玻 尔 效 曼 机 并 讨论 训练 模型 和 进 
行 推 断 时 出 现 的 问题 。 

我 们 在 a 维 二 值 随机 向 量 ze {0,1}4 上 定义 玻 尔 兹 曼 机 。 玻 尔 兹 曼 机 是 一 种 基 
于 能 量 的 模型 (第 16.2.4 节 ), 意味 着 我 们 可 以 使 用 能 量 函 数 定义 联合 概率 分 布 : 

_ exp(-F(a)) 
z ; 
其 中 E(x) 是 能 量 函 数 ，2 是 确保 DO P(x) = 1 RRR PEAR ZK ELE K 








P(z) (20.1) 





E(x) = —a' Uz — b' z, (20.2) 


其 中 U RRRS AE AERE, b 是 偏 置 向 量 。 
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在 一 般 设 定 下 ， 给 定 一 组 训练 样本 ， 每 个 样本 都 是 n 维 的 。 式 (20.1) 描述 了 观 
察 到 的 变量 的 联合 概率 分 布 。 虽 然 这 种 情况 显然 可 行 ， 但 它 限 制 了 观察 到 的 变量 和 
权重 和 矩阵 描述 的 变量 之 间 相 互 作用 的 类 型 。 具 体 来 说 ， 这 意味 着 一 个 单元 的 概率 由 
其 他 单元 值 的 线性 模型 ( 逻辑 回归 ) 给 出 。 

当 不 是 所 有 变量 都 能 被 观察 到 时 ,， 玻 尔 效 曼 机 变 得 更 强大 。 在 这 种 情况 下 , 洪 变 
量 类 似 于 多 层 感知 机 中 的 隐藏 单元 ， 并 模拟 可 见 单 元 之 间 的 高 阶 交 互 。 正 如 添加 隐 
藏 单 元 将 逻辑 回归 转换 为 MLP， 导 臻 MLP 成 为 函数 的 万 能 近似 器 ， 具 有 隐藏 单 
元 的 玻 尔 效 曼 机 不 再 局 限于 建 模 变量 之 间 的 线性 关系 。 相 反 ， 玻 尔 效 曼 机 变 成 了 离 
散 变 量 上 概率 质量 函数 的 万 能 近似 器 (Le Roux and Bengio, 2008). 

正式 地 ， 我 们 将 单元 z 分 解 为 两 个 子 集 : 可 见 单元 v 和 潜在 (或 隐藏 ) 单元 ho 
能 量 函 数 变 为 





























E(v, h) = —v' Rv — v! Wh—h' Sh— b'v— c'h. (20.3) 





玻 尔 兹 曼 机 的 学 习 ” 玻 尔 效 曼 机 的 学 习 算 法 通常 基于 最 大 似 然 。 所 有 玻 尔 效 曼 机 都 
具有 难以 处 理 的 配 分 函数 ， 因 此 最 大 似 然 梯度 必须 使 用 第 十 八 章 中 的 技术 来 近似 。 

玻 尔 效 曼 机 有 一 个 有 趣 的 性 质 , 当 基于 最 大 似 然 的 学 习 规 则 训练 时 , 连接 两 个 单 
元 的 特定 权重 的 更 新 仅 取决 于 这 两 个 单元 在 不 同 分 布下 收集 的 统计 信息 : Proaei(v) 
和 Paata(v)Pmode(he| v)。 网 络 的 其 余部 分 参与 塑造 这 些 统计 信息 ,但 权重 可 以 在 完 
全 不 知道 网 络 其 余部 分 或 这 些 统计 信息 如 何 产生 的 情况 下 更 新 。 这 意味 着 学 习 规 则 
是 “局 部 ” 的， 这 使 得 玻 尔 兹 曼 机 的 学 习 似 乎 在 某 种 程度 上 是 生物 学 合理 的 。 我 们 
可 以 设想 每 个 神经 元 都 是 玻 尔 兹 曼 机 中 随机 变量 的 情况 ， 那 么 连接 两 个 随机 变量 的 
轴 突 和 树 突 只 能 通过 观察 与 它们 物理 上 实际 接触 细胞 的 激发 模式 来 学 习 。 特 别 地 ， 
正 相 期 间 ， 经 常 同时 激活 的 两 个 单元 之 间 的 连接 会 被 加 强 。 这 是 Hebbian 学 习 规 则 
(Hebb, 1949) 的 一 个 例子 , 经 常 总 结 为 好 记 的 短语 一 一 “fire together, wire together” s 
Hebbian 学 习 规 则 是 生物 系统 学 习 中 最 古老 的 假设 性 解释 之 一 ， 直 至 今天 仍然 有 重 
大 意义 (Giudice et al., 2009)。 

不 仅仅 使 用 局 部 统计 信息 的 其 他 学 习 算 法 似乎 需要 假设 更 多 的 学 习 机 制 。 例 如 ， 
对 于 大 脑 在 多 层 感知 机 中 实现 的 反 向 传播 ， 似 乎 需要 维持 一 个 辅助 通信 的 网 络 ， 并 
借 此 向 后 传输 梯度 信息 。 已 经 有 学 者 (Hinton, 2007a; Bengio, 2015) 提出 生物 学 上 可 
ÍT (和 近似 ) 的 反 向 传播 实现 方案 ,但 仍然 有 待 验 证 ，Bengio (2015) 还 将 梯度 的 反 
向 传播 关联 到 类 似 于 玻 尔 兹 曼 机 (但 具有 连续 潜 变 量 ) 的 能 量 模型 中 的 推断 。 
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从 生物 学 的 角度 看 , 玻 尔 效 曼 机 学 习 中 的 负 相 阶段 有 点 难以 解释 。 正 如 第 18.277 
所 主张 的 ， 人 类 在 睡眠 时 做 梦 可 能 是 一 种 形式 的 负 相 采样 。 尽 管 这 个 想法 更 多 的 只 


是 猜测 。 


20.2 SERBS 


受 限 玻 尔 兹 曼 机 以 BRE (harmonium ) 之 名 (Smolensky, 1986) 面世 之 后 , 成 
为 了 深度 概率 模型 中 最 常见 的 组 件 之 一 。 我 们 之 前 在 第 16.7.1 节 简要 介绍 了 RBM。 
在 这 里 我 们 回顾 以 前 的 内 容 并 探讨 更 多 的 细节 。RBM 是 包含 一 层 可 观察 变量 和 单 
层 潜 变量 的 无 向 概率 图 模型 。RBM UERR 〈 一 个 在 另 一 个 的 顶部 ) 形成 更 深 
的 模型 。 图 20.1 展示 了 一 些 例子 。 特 别 地 , 图 20.1a 显示 RBM 本 身 的 图 结构 。 它 是 
一 个 二 分 图 ， 观 察 层 或 潜 层 中 的 任何 单元 之 间 不 允许 存在 连接 。 

我 们 从 二 值 版 本 的 受 限 玻 尔 兹 曼 机 开始 ， 但 如 我 们 之 后 所 见 ， 这 还 可 以 扩展 为 
其 他 类 型 的 可 见 和 隐藏 单元 。 

更 正式 地 说 ， 令 观察 层 由 一 组 n, 个 二 值 随机 变量 组 成 ， 我 们 统称 为 向 量 vo R 
们 将 na 个 二 值 随机 变量 的 潜在 或 隐藏 层 记 为 h。 

就 像 普通 的 玻 尔 效 曼 机 ， 受 限 玻 尔 效 曼 机 也 是 基于 能 量 的 模型 ， 其 联合 概率 分 
布 由 能 量 函 数 指定 : 














Pv = v,h = h) = 5 exp(-K(0,h)). (20.4) 
RBM fy fete KA F h 


E(v,h) = —b' vc hv Wh, (20.5) 





其 中 2 是 被 称 为 配 分 函数 的 归 一 化 常数 : 
Z= >》 > exp{-E(v, h)} (20.6) 

v h 
从 配 分 函数 2 的 定义 显而易见 , 计算 2 的 朴素 方法 (对 所 有 状态 进行 穷 举 求 和 ) 计 
算 上 可 能 是 难以 处 理 的 ， 除 非 有 巧妙 设计 的 算法 可 以 利用 概率 分 布 中 的 规则 来 更 快 


地 计算 2。 在 受 限 玻 尔 兹 曼 机 的 情况 下 ，Long and Servedio (2010) IESQuEHA Ada} ek 
BZ 是 难 解 的 。 难 解 的 配 分 函数 2 意味 着 归 一 化 联合 概率 分 布 P(v) 也 难以 评估 。 
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图 20.1: 可 以 用 受 限 玻 尔 兹 曼 机 构建 的 模型 示例 。(a) 受 限 玻 尔 兹 曼 机 本 身 是 基于 二 分 图 的 无 向 图 





模型 ,在 图 的 一 部 分 具有 可 见 单元 ， 
间 也 没有 任何 连接 。 通 常 每 个 可 见 旧 














另 一 部 分 具有 隐藏 单元 。 可 见 单元 之 间 没 有 连接 ， 隐 藏 单元 之 
元 连接 到 每 个 隐藏 单元 ， 但 也 可 以 构造 稀 玻 连接 的 RBM， 如 








卷 积 RBM。(b) 深 度 信 念 网 络 是 涉及 有 向 和 无 向 连接 的 混合 图 模型 。 与 RBM 一 样 , 它 也 没有 层 内 
连接 。 然 而 ，DBN 具有 多 个 隐藏 层 ， 因 此 隐藏 单元 之 间 的 连接 在 分 开 的 层 中 。 深 度 信 念 网 络 所 需 

















的 所 有 局 部 条 件 概率 分 布 都 直接 复制 RBM 的 局 部 条 件 概 率 分 布 。 或 者 ， 我 们 也 可 以 用 完全 无 向 











图 表示 深度 信念 网 络 ,， 但 是 它 需 要 层 内 连接 来 捕获 父 节点 间 的 依赖 关系 。(c) 深 度 玻 尔 兹 曼 机 是 具 


























有 几 层 潜 变 量 的 无 向 图 模型 。 与 RBM 和 DBN 一 样 ，DBM 也 缺少 层 内 连接 。DBM 5 RBM 的 
联系 不 如 DBN 紧密 。 当 从 RBM 堆栈 初始 化 DBM 时 ， 有 必要 对 RBM 的 参数 稍 作 修改 。 某 些 

















种 类 的 DBM 可 以 直接 训练 ， 而 不 


20.2.1 ”条件 分 布 


虽然 P(v) HERR, {A RBM 的 二 分 图 结构 具有 非常 特殊 的 性 质 ， 


P(h|v) 和 P(v | h) 是 因子 的 





j 先 训练 一 组 RBM. 





R 


条 件 分 布 





中 


\ 


， 并 且 计 算 和 采样 是 相对 简单 的 。 
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从 联合 分 布 中 导出 条 件 分 布 是 直观 的 : 





P(h, v 
P(h| v) = a (20.7) 
= 一 i T T T 
= Ply 7° 18 v+ceh+uv Wh} (20.8) 
1 
= Fxp{e hto Wh} (20.9) 
-em{2 h; 530 W, jh;} (20.10) 
1 
= J Tex {ely +" W. jhj}. (20:11) 
j=l 


由 于 我 们 相对 可 见 单元 v 计算 条 件 概率 ， 相 对 于 分 布 P(h | v) 我 们 可 以 将 它们 视 为 
和 常数。 条 件 分 布 P(h | v) 因子 相 乘 的 本 质 ， 我 们 可 以 将 向 量 h 上 的 联合 概率 写成 单 
独 元 素 h; 上 (未 归 一 化 ) 分 布 的 乘积 。 现 在 原 问 题 变 成 了 对 单个 二 值 h; 上 的 分 布 
进行 归 一 化 的 简单 问题 。 








P(hj =1|v =3 ie ay (20.12) 
P(hj =0| v) + P(hy =1| v) 
= exp{c; + v' W.;} 
~ exp{0} +exp{c; + v! W. ;} (20.13) 
Re Wo) (20.14) 
现在 我 们 可 以 将 关于 隐藏 层 的 完全 条 件 分 布 表达 为 因子 形式 ， 
-Tiol (P= Doket Wa (20.15) 


类 似 的 推导 将 显示 我 们 感 兴趣 的 男 一 条 件 分 布 ，P(v | h) 也 是 因子 形式 的 分 布 : 


-IIr( (2v—1) © (b+ Wh)).. (20.16) 


20.2.2 ”训练 受 限 玻 尔 兹 曼 机 


因为 RBM 允许 高 效 计算 P(o) 的 估计 和 微分 ， 并 且 还 允许 高 效 地 ( 以 块 吉 布 
斯 采样 的 形式 ) 进行 MCMC 采样 ， 所 以 我 们 很 容易 使 用 第 十 八 章 中 训练 具有 难以 计 
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算 配 分 函数 的 模型 的 技术 来 训练 RBM。 这 包括 CD, SML (PCD ) 、 比 率 匹配 等 。 
与 深度 学 习 中 使 用 的 其 他 无 向 模型 相 比 ，RBM 可 以 相对 直接 地 训练 ， 因 为 我 们 可 以 
以 闭 解 形式 计算 P(h | v)。 其 他 一 些 深度 模型 ， 如 深度 玻 尔 兹 曼 机 ,同时 具备 难处 理 
的 配 分 函数 和 难以 推断 的 难题 。 


20.3 ”深度 信念 网 络 


深度 信念 网 络 ( deep belief network, DBN ) 是 第 一 批 成 功 应 用 深度 架构 训练 的 
非 卷 积 模型 之 一 (Hinton et al., 2006a; Hinton, 2007b). 2006 年 深度 信念 网 络 的 引入 
开始 了 当前 深度 学 习 的 复兴 。 在 引入 深度 信念 网 络 之 前 ， 深 度 模型 被 认为 太 难 以 优 
化 。 具 有 凸 目标 函数 的 核 机 器 引领 了 研究 前 沿 。 深 度 信念 网 络 在 MNIST 数据 集 上 表 
现 超过 内 核 化 支持 向 量 机 ， 以 此 证 明 深 度 架构 是 能 够 成 功 的 (Hinton et al., 2006a)。 
尽管 现在 与 其 他 无 监督 或 生成 学 习 算法 相 比 ， 深 度 信念 网 络 大 多 已 经 失去 了 青睐 并 
很 少 使 用 ,但 它们 在 深度 学 习 历 史 中 的 重要 作用 仍 应 该 得 到 承认 。 

深度 信念 网 络 是 具有 若干 潜 变 量 层 的 生成 模型 。 潜 变量 通常 是 二 值 的 ， 而 可 见 
单元 可 以 是 二 值 或 实数 。 尽 管 构造 连接 比较 稀 蕊 的 DBN 是 可 能 的 , 但 在 一 般 的 模型 
中 ， 每 层 的 每 个 单元 连接 到 每 个 相 邻 层 中 的 每 个 单元 ( 没有 层 内 连接 )。 顶 部 两 层 之 
间 的 连接 是 无 向 的 。 而 所 有 其 他 层 之 间 的 连接 是 有 向 的 ， 箭 头 指向 最 接近 数据 的 层 。 
见 图 20.1b 的 例子 。 

具有 ! 个 隐藏 层 的 DBN 包含 ! MEE: WY... 了。 同时 也 包含 1+1 
个 偏 置 向 量 : BO... BO, FEHR OO 是 可 见 层 的 偏 置 。DBN 表示 的 概率 分 布 由 下 式 
给 出 : 


















































P(A, RO“) oc exp (50 RO +4 bD RED 十 Pr-D7 WOR), (20.17) 
PU = 1| ROY) = a(b + WEY AY) Vi Yk €1,...,1—2, (20.18) 
P(o; = LRO) = 0 (6 + WH A) vi. (20.19) 





在 实 值 可 见 单元 的 情况 下 ， 替 换 
v ~ N (y; B® + WY hO, 6-7) (20.20) 


为 便于 处 理 ，B 为 对 角形 式 。 至 少 在 理论 上 ， 推 广 到 其 他 指数 族 的 可 见 单元 是 直观 
的 。 只 有 一 个 隐藏 层 的 DBN 只 是 一 个 RBM。 
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为 了 从 DBN 中 生成 样本 ， 我 们 先 在 顶部 的 两 个 隐藏 层 上 运行 几 个 Gibbs 采 
样 步骤。 这 个 阶段 主要 从 RBM (由 顶部 两 个 隐藏 层 定义 ) 中 采 一 个 样本 。 然 后 ， 我 
们 可 以 对 模型 的 其 余部 分 使 用 单 次 原始 采样 ， 以 从 可 见 单元 绘制 样本 。 

深度 信念 网 络 引 发 许多 与 有 向 模型 和 无 向 模型 同时 相关 的 问题 。 

由 于 每 个 有 向 层 内 的 相 消解 释 效 应 ， 并 且 由 于 无 向 连接 的 两 个 隐藏 层 之 间 的 相 
互 作用 , 深度 信念 网 络 中 的 推断 是 难 解 的 。 评估 或 最 大 化 对 数 似 然 的 标准 证 据 下 界 也 
是 难以 处 理 的 ， 因 为 证 据 下 界 基于 大 小 等 于 网 络 宽度 的 团 的 期 望 。 

评估 或 最 大 化 对 数 似 然 , 不 仅 需 要 面 对 边缘 化 潜 变 量 时 难以 处 理 的 推断 问题 ,而 
日 还 需要 处 理 顶 部 两 层 无 问 模 型 内 难处 理 的 配 分 函数 问题 。 

为 训练 深度 信念 网 络 ， 我 们 可 以 先 使 用 对 比 散 度 或 随机 最 大 似 然 方法 训 
练 RBM 以 最 大 化 E,yj,,, logp(v)。RBM 的 参数 定义 了 DBN 第 一 层 的 参数 。 
然后 ， 第 二 个 RBM 训练 为 近似 最 大 化 



































By pant En) np (hd |v) log p®) (h®), (20.21) 


其 中 pO 是 第 一 个 RBM RREKIN, pO 是 第 二 个 RBM 表示 的 概率 分 布 。 
换 句 话说 ， 第 二 个 RBM 被 训练 为 模拟 由 第 一 个 RBM 的 隐藏 单元 采样 定义 的 分 布 ， 
而 第 一 个 RBM 由 数据 驱动 。 这 个 过 程 能 无 限 重 复 ， 从 而 向 DBN 添加 任意 多 层 ， 其 
中 每 个 新 的 RBM 对 前 一 个 RBM 的 样本 建 模 。 每 个 RBM 定义 DBN 的 另 一 层 。 这 
个 过 程 可 以 被 视 为 提高 数据 在 DBN 下 似 然 概 率 的 变 分 下 界 (Hinton et al., 2006a)。 

在 大 多 数 应 用 中 , 对 DBN 进行 贪心 逐 层 训练 后 ， 不 需要 再 花 功夫 对 其 进行 联合 
训练 。 然 而 ， 使 用 醒 眠 算法 对 其 进行 生成 精 调 是 可 能 的 。 

训练 好 的 DBN 可 以 直接 用 作 生 成 模型 , 但 是 DBN 的 大 多 数 兴 趣 来 自 于 它们 改 
进 分 类 模型 的 能 力 。 我 们 可 以 从 DBN 获取 权重 ， 并 使 用 它们 定义 MLP: 

















AY =o(b) +o" W), (20.22) 
h® = o (bP + rl)" We) Vie 2,...,m. (20.23) 
利用 DBN IÆ UIA Ja RAS A A id AA MLP 之 后 ， 我 们 可 以 训练 
该 MLP 来 执行 分 类 任务 。 这 种 MLP 的 额外 训练 是 判别 性 精 调 的 示例 。 
与 第 十 九 章 中 从 基本 原理 导出 的 许多 推断 方程 相 比 ， 这 种 特定 选择 的 MLP 有 
些 随意 。 这 个 MLP 是 一 个 启发 式 选择 ,似乎 在 实践 中 效果 不 错 ， 并 在 文献 中 一 贯 
用 。 许 多 近似 推断 技术 是 由 它们 在 一 些 约束 下 ， 并 在 对 数 似 然 上 找到 最 大 紧 变 分 下 
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界 的 能 力 所 驱 动 的 。 我 们 可 以 使 用 DBN 中 MLP 定义 的 隐藏 单元 的 期 望 ， 构 造 对 数 
似 然 的 变 分 下 界 ， 但 这 对 于 隐藏 单元 上 的 任何 概率 分 布 都 是 如 此 ， 并 没有 理由 相信 
该 MLP 提供 了 一 个 特别 的 紧 界 。 特 别 地 ，MLP 忽略 了 DBN 图 模型 中 许多 重要 的 
相互 作用 。MLP 将 信息 从 可 见 单元 向 上 传播 到 最 次 的 隐藏 单元 ， 但 不 向 下 或 侧 向 传 
播 任何 信息 。DBN 图 模型 解释 了 同一 层 内 所 有 隐藏 单元 之 间 的 相互 作用 以 及 层 之 间 
的 自 项 向 下 的 相互 作用 。 

虽然 DBN 的 对 数 似 然 是 难处 理 的 , 但 它 可 以 使 用 AIS 近似 (Salakhutdinov and 
Murray, 2008)。 通 过 近似 ， 可 以 评估 其 作为 生成 模型 的 质量 。 

术语 “深度 信念 网 络 ” 通常 不 正确 地 用 于 指 代 任 意 种 类 的 深度 神经 网 络 ， 其 至 没 
有 潜 变 量 意义 的 网 络 。 这 个 术语 应 特 指 最 深层 中 具有 无 向 连接 ， 而 在 所 有 其 他 连续 
层 之 间 存 在 向 下 有 向 连接 的 模型 。 

这 个 术语 也 可 能 导致 一 些 混乱 ， 因 为 术语 “信念 网 络 ” 有 时 指 纯粹 的 有 向 模 
型 ， 而 深度 信念 网 络 包含 一 个 无 向 层 。 深 度 信 和 念 网 络 也 与 动态 贝 叶 斯 网 络 (dynamic 
Bayesian networks ) (Dean and Kanazawa, 1989) 共享 首 字母 缩写 DBN， 动 态 贝 叶 
斯 网 络 表 示 马 尔 可 夫 链 的 贝 叶 斯 网 络 。 


20.4 深度 玻 尔 效 曼 机 


深度 玻 尔 效 曼 机 (Deep Boltzmann Machine, DBM ) (Salakhutdinov and Hin- 
ton, 2009a) 是 男 一 种 深度 生成 模型 。 与 深度 信念 网 络 (DBN ) 不 同 的 是 ， 它 是 一 
个 完全 无 向 的 模型 。 与 RBM 不 同 的 是 ，DBM AULA (RBM 只 有 一 层 )。 
但 是 像 RBM 一 样 ， 每 一 层 内 的 每 个 变量 是 相互 独立 的 ， 并 条 件 于 相 邻 层 中 的 变 
量 。 见 图 20.2 中 的 图 结构 。 深 度 玻 尔 兹 曼 机 已 经 被 应 用 于 各 种 任务 ， 包 括 文档 建 模 
(Srivastava et al., 2013)。 

与 RBM 和 DBN 一 样 ，DBM 通常 仅 包含 二 值 单元 ( 正如 我 们 为 简化 模型 的 演 
示 而 假设 的 )， 但 很 容易 就 能 扩展 到 实 值 可 见 单元 。 

DBM 是 基于 能 量 的 模型 ， 这 意味 着 模型 变量 的 联合 概率 分 布 由 能 量 函 数 E 参 
数 化 。 在 一 个 深度 玻 尔 效 曼 机 包含 一 个 可 见 层 v 和 三 个 隐藏 层 hO, hO 和 ht3) 的 情 
况 下 ， 联 合 概率 由 下 式 给 出 : 











1 
P(v, AY, hP, A) = 7H? (一 Elv, h®,h® ,h®:;0)). (20.24) 
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图 20.2: 具有 一 个 可 见 层 ( 底部 ) 和 两 个 隐藏 层 的 深度 玻 尔 兹 曼 机 的 图 模型 。 仅 在 相 邻 层 的 单元 之 
间 存 在 连接 。 没 有 层 内 连接 。 
































为 简化 表示 ， 下 式 省 略 了 偏 置 参数 。DBM JEE KAGE XUN TF: 
E(v, h®, hP, n®:0) = vo WORO — hO WORO — 22" WORO, (20.25) 
与 RBM 的 能 量 函 数 (sb (20.5) ) FALL, DBM 能 量 函 数 以 权重 矩阵 ( WO 和 


WO) 的 形式 表示 隐藏 单 元 ( 潜 变 量 ) 之 间 的 连接 。 正 如 我 们 将 看 到 的 ， 这 些 连接 
对 模型 行为 以 及 我 们 如 何在 模型 中 进行 推断 都 有 重要 的 影响 。 








图 20.3: 深度 玻 尔 效 曼 机 ， 重 新 排列 后 显示 为 二 分 图 结构 。 

















与 全 连接 的 玻 尔 兹 曼 机 ( 每 个 单元 连接 到 其 他 每 个 单元 ) 相 比 ，DBM 提供 了 类 
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似 于 RBM 的 一 些 优点 。 


具体 来 说 ， 如 图 20.3 所 示 ，DBM 的 层 可 以 组 织 成 一 个 二 分 图 ， 其 中 奇数 层 在 一 
侧 ， 偶 数 层 在 另 一 侧 。 容 易 发 现 ， 当 我 们 条 件 于 偶数 层 中 的 变量 时 ， 奇 数 层 中 的 变 
量变 得 条 件 独立 。 当 然 ， 当 我 们 条 件 于 奇数 层 中 的 变量 时 ， 偶 数 层 中 的 变量 也 会 变 
得 条 件 独立 。 

DBM 的 二 分 图 结构 意味 着 我 们 可 以 应 用 之 前 用 于 RBM 条 件 分 布 的 相同 式 子 
来 确定 DBM 中 的 条 件 分 布 。 在 给 定 相 邻 层 值 的 情况 下 ， 层 内 的 单元 彼此 条 件 独立 ， 
因此 二 值 变量 的 分 布 可 以 由 Bernoulli 参数 ( 描述 每 个 单元 的 激活 概率 ) 完全 描述 。 
在 具有 两 个 隐藏 层 的 示例 中 ， 激 活 概率 由 下 式 给 出 : 


Plu =1| AP) = 0( WPA), (20.26) 
P(A? =1]| v,h®) =o(0 WY + WR), (20.27) 

All 
PAY? = 1 AT WE). (20.28) 


二 分 图 结构 使 Gibbs 采样 能 在 深度 玻 尔 兹 曼 机 中 高 效 采样 。Gibbs 采样 的 方法 
是 一 次 只 更 新 一 个 变量 。RBM 人 允许 所 有 可 见 单元 以 一 个 块 的 方式 更 新 ， 而 所 有 隐藏 
单元 在 另 一 个 块 上 更 新 。 我 们 可 以 简单 地 假设 具有 ! 层 的 DBM 需要 1 十 1 次 更 新 ， 
每 次 迭代 更 新 由 某 层 单元 组 成 的 块 。 然 而 ,我 们 可 以 仅 在 两 次 迭代 中 更 新 所 有 单元 。 
Gibbs 采样 可 以 将 更 新 分 成 两 个 块 ， 一 块 包括 所 有 偶数 层 (包括 可 见 层 )， 另 一 个 
包括 所 有 奇数 层 。 由 于 DBM 二 分 连接 模式 ， 给 定 偶数 层 ， 关 于 奇数 层 的 分 布 是 因 
子 的 ， 因 此 可 以 作为 块 同 时 上 且 独立 地 采样 。 类 似 地 ， 给 定 奇数 层 ， 可 以 同时 且 独 立 
地 将 偶数 层 作 为 块 进行 采样 。 高 效 采样 对 使 用 随机 最 大 似 然 算法 的 训练 尤其 重要 。 




















20.4.1 有趣 的 性 质 


深度 玻 尔 兹 曼 机 具有 许多 有 趣 的 性 质 。 


DBM 在 DBN 之 后 开发 。 与 DBN 相 比 ，DBM 的 后 验 分 布 P(h | v) 更 简单 。 
有 点 违反 直觉 的 是 ， 这 种 后 验 分 布 的 简单 性 允许 更 加 丰富 的 后 验 近似 。 在 DBN 的 
情况 下 ， 我 们 使 用 启发 式 的 近似 推断 过 程 进行 分 类 ， 其 中 我 们 可 以 通过 MLP (使 
用 sigmoid 激活 函数 并 且 权 重 与 原始 DBN 相同 ) 中 的 向 上 传播 猜测 隐藏 单元 合理 
的 均匀 场 期 望 值 。 任 何 分 布 Q(h) 可 用 于 获得 对 数 似 然 的 变 分 下 界 。 因 此 这 种 启发 
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式 的 过 程 让 我 们 能 够 获得 这 样 的 下 界 。 但 是 ， 该 界 没有 以 任何 方式 显 式 优化 ， 所 以 
该 界 可 能 是 远 远 不 紧 的 。 特 别 地 ，Q 的 启发 式 估计 忽略 了 相同 层 内 隐藏 单元 之 间 的 
相互 作用 以 及 更 深层 中 隐藏 单元 对 更 接近 输入 的 隐藏 单元 自 顶 向 下 的 反馈 影响 。 
为 DBN 中 基于 启发 式 MLP 的 推断 过 程 不 能 考虑 这 些 相互 作用 ， 所 以 得 到 的 Q 想 
必 远 不 是 最 优 的 。DBM 中 ,在 给 定 其 他 层 的 情况 下 ， 层 内 的 所 有 隐藏 单元 都 是 条 件 
独立 的 。 这 种 层 内 相互 作用 的 缺失 使 得 通过 不 动 点 方程 优化 变 分 下 界 并 找到 真正 最 
佳 的 均匀 场 期 望 ( 在 一 些 数值 容 差 内 ) 变 得 可 能 的 。 

使 用 适当 的 均匀 场 多 许 DBM 的 近似 推断 过 程 捕 获 自 项 向 下 反馈 相互 作用 的 影 
响 。 这 从 神经 科学 的 角度 来 看 是 有 趣 的 ， 因 为 根据 已 知 ， 人 脑 使 用 许多 自 上 而 下 的 反 
馈 连 接 。 由 于 这 个 性 质 ，DBM 已 被 用 作 真实 神经 科学 现象 的 计算 模型 (Series et al., 
2010; Reichert et al., 2011)。 

DBM 一 个 不 理想 的 特性 是 从 中 采样 是 相对 困难 的 。DBN 只 需要 在 其 顶部 的 一 
对 层 中 使 用 MCMC 采样 。 其 他 层 仅 在 采样 过 程 末尾 涉及 ,并且 只 需 在 一 个 高 效 的 原 
台 采 样 过 程 。 要 从 DBM 生成 样本 ,必须 在 所 有 层 中 使 用 MCMC， 并 且 模 型 的 每 一 
层 都 参与 每 个 马尔 可 夫 链 转移 。 








20.4.2 ” DBM 均匀 场 推断 


给 定 相 邻 层 , 一 个 DBM 层 上 的 条 件 分 布 是 因子 的 。 在 有 两 个 隐藏 层 的 DBM 的 
示例 中 ， 这 些 分 布 是 Po | AY), P(h® | oh) 和 P(A? | hh)。 因 为 层 之 间 的 相 
互 作用 ， 所 有 隐藏 层 上 的 分 布 通常 不 是 因子 的 。 在 有 两 个 隐藏 层 的 示例 中 , 由 于 A? 
和 A? 之 间 的 交互 权重 WO 使 得 这 些 变 量 相互 依赖 ，P(h |v, hP) 不 是 因子 的 。 

与 DBN 的 情况 一 样 ， 我 们 还 是 要 找 出 近似 DBM 后 验 分 布 的 方法 。 然 而 ， 
与 DBN 不 同 ，DBM 在 其 隐藏 单元 上 的 后 验 分 布 (复杂 的 ) 很 容易 用 变 分 近似 来 近 
似 (如 第 19.4 节 所 讨论 )， 具体 是 一 个 均匀 场 近似 。 均 匀 场 近似 是 变 分 推断 的 简单 形 
式 ， 其 中 我 们 将 近似 分 布 限制 为 完全 因子 的 分 布 。 在 DBM 的 情况 下 ， 均 匀 场 方程 
捕获 层 之 间 的 双向 相互 作用 。 在 本 节 中 ， 我 们 推导 出 由 Salakhutdinov and Hinton 
(2009a) 最 初 引入 的 迭代 近似 推断 过 程 。 

在 推断 的 变 分 近似 中 ， 我 们 通过 一 些 相当 简单 的 分 布 族 近 似 特定 目标 分 布 一 一 
在 这 里 指 给 定 可 见 单元 时 隐藏 单元 的 后 验 分 布 。 在 均匀 场 近似 的 情况 下 , 近似 族 是 隐 
藏 单元 条 件 独立 的 分 布 集合 。 
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我 们 现在 为 具有 两 个 隐藏 层 的 示例 推导 均匀 场 方法 。 令 hP, hO | v) 为 
P(AY, A | v) 的 近似 。 均 匀 场 假设 意味 着 


QA AO |o) =J [RAP |») RR ly (20.29) 
j k 


$5) Gilt WA RB MT Be SES P(A, hO | v) 的 成 员 。 重 
要 的 是 ， 每 次 我 们 使 用 v 的 新 值 时 ， 必 须 青 次 运行 推断 过 程 以 找到 不 同 的 分 布 Q。 

我 们 可 以 设想 很 多 方法 来 衡量 Q(h | v) 与 P(h | v) 的 拟 合 程度 。 均 匀 场 方法 是 
最 小 化 





a) pO 
aN =, (20.30) 


KUQ IP) = Qh, K? | Wioe (Sar par 


h 
一 般 来 说 ， 除 了 要 保证 独立 性 假设 ， 我 们 不 必 提 供 参 数 形式 的 近似 分 布 。 变 分 
近似 过 程 通常 能 够 恢复 近似 分 布 的 函数 形式 。 然 而 ， 在 二 值 隐 藏 单 元 (我们 在 这 里 
推导 的 情况 ) 的 均匀 场 假 设 的 情况 下 ， 不 会 由 于 预先 固定 模型 的 参数 而 损失 一 般 性 。 
我 们 将 Q 作为 Bernoulli 分 布 的 乘积 进行 参数 化 ， 即 我 们 将 AM 每 个 元 素 的 
概率 与 一 个 参数 相关 联 弛 具体 来 说 ， 对 于 每 个 j), hi ?= QAP = 1 v), Hp 
AM € [0,1]. Ab, MET k, AP = Q(RC) = 1| vw), HPAP € [0,1]。 因此, R 
们 有 以 下 近似 后 验 : 


QRY A? |v) = [EAP | ») [TOP | ») (20.31) 
ki k 
a (1) 分 -hh 人 人 2 全 pR 
A k 
(20.32) 


当然 ， 对 于 具有 更 多 层 的 DBM， 近 似 后 验 的 参数 化 可 以 通过 明显 的 方式 扩展 ， 即 利 
用 图 的 二 分 结构 ， 遵 循 Gibbs 采样 相同 的 调度 ， 同 时 更 新 所 有 偶数 层 ， 然 后 同时 更 
新 所 有 奇数 层 。 

现在 我 们 已 经 指定 了 近似 分 布 Q 的 函数 族 ， 但 仍然 需要 指定 用 于 选择 该 函数 族 
中 最 适合 P 的 成 员 的 过 程 。 最 直接 的 方法 是 使 用 式 (19.56) 指定 的 均匀 场 方程 。 这 些 
方程 是 通过 求解 变 分 下 界 导数 为 零 的 位 置 而 导出 。 他 们 以 抽象 的 方式 描述 如 何 优化 
任意 模型 的 变 分 下 界 ( 只 需 对 Q 求 期 望 )。 
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应 用 这 些 一 般 的 方程 ， 我 们 得 到 以 下 更 新 规则 ( 再 次 忽略 偏 置 项 ): 
nV =o Dw +E WRAP), wi, (20.33) 
4 k’ 
hP = (> Webs), Vk. (20.34) 
g” 























在 该 方程 组 的 不 动 点 处 , 我 们 具有 变 分 下 界 C(@) 的 局 部 最 大 值 。 因 此 ， 这 些 不 动 点 
更 新 方程 定义 了 和 迭代 算法 ， 其 中 我 们 交替 更 新 AY (使 用 式 (20.33) ) 和 A (使 
用 式 (20.34) )。 对 于 诸如 MNIST 的 小 问题 ， 少 至 10 次 迭代 就 足以 找到 用 于 学 习 的 
近似 正 相 梯度 ， 而 50 次 通常 足以 获得 要 用 于 高 精度 分 类 的 单个 特定 样本 的 高 质量 表 
示 。 将 近似 变 分 推断 扩展 到 更 深 的 DBM 是 直观 的 。 








20.4.3 DBM 的 参数 学 习 


DBM 中 的 学 习 必 须 面 对 难 解 配 分 函数 的 挑战 (使 用 第 十 八 章 中 的 技术 )， 以 及 
难 解 后 验 分 布 的 挑战 (使 用 第 十 九 章 中 的 技术 )。 

如 第 20.4.2 节 中 所 描述 的 ， 变 分 推断 允许 构建 近似 难处 理 的 PC | wv) 的 分 布 
Q(h | v)。 然 后 通过 最 大 化 Lv, Q,90)( 难 处理 的 对 数 似 然 的 变 分 下 界 log P(v; 0) ) 
学 习 。 


对 于 具有 两 个 隐藏 层 的 深度 玻 尔 兹 曼 机 ，£L 由 下 式 给 出 


£(Q,0) = > vw + 》 ROW EAD — log2(0) + H(Q). (20.35) 
“Y TA at 


j k 


a 


该 表达 式 仍然 包含 对 数 配 分 函数 log Z(6)。 由 于 深度 玻 尔 效 曼 机 包含 受 限 玻 尔 效 曼 
机 作为 组 件 ， 用 于 计算 受 限 玻 尔 效 曼 机 的 配 分 函数 和 采样 的 困难 同样 适用 于 深度 玻 
尔 兹 曼 机 。 这 意味 着 评估 玻 尔 兹 曼 机 的 概率 质量 函数 需要 近似 方法 ， 如 退火 重要 采 
样 。 同 样 ， 训 练 模型 需要 近似 对 数 配 分 函数 的 梯度 。 见 第 十 八 章 对 这 些 方法 的 一 般 
性 描述 。DBM 通常 使 用 随机 最 大 似 然 训练 。 第 十 八 章 中 描述 的 许多 其 他 技术 都 不 适 
用 。 诸 如 伪 似 然 的 技术 需要 评估 非 归 一 化 概率 的 能 力 ， 而 不 是 仅仅 获得 它们 的 变 分 
下 界 。 对 于 深度 玻 尔 兹 曼 机 ， 对 比 散 度 是 缓慢 的 ， 因 为 它们 不 能 在 给 定 可 见 单元 时 
对 隐 臣 单元 进行 高 效 采样 一 反而 ， 每 当 需 要 新 的 负 相 样本 时 ， 对 比 散 度 将 需要 府 
合 一 条 马尔 可 夫 链 。 

非 变 分 版 本 的 随机 最 大 似 然 算 法 已 经 在 第 18.2 节 讨论 过 。 算 法 20.1 给 出 了 应 用 
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F DBM 的 变 分 随机 最 大 似 然 算法 。 回想 一 下 , 我 们 描述 的 是 DBM 的 简化 变 体 〈 缺 
少 偏 置 参 数 ) ; 很 容易 推广 到 包含 偏 置 参数 的 情况 。 
































20.4.4 jKR MUNA 


不 幸 的 是 , 随机 初始 化 后 使 用 随机 最 大 似 然 训练 (如 上 所 述 ) 的 DBM 通常 导致 
失败 。 在 一 些 情况 下 ， 模 型 不 能 学 习 如 何 充分 地 表示 分 布 。 在 其 他 情况 下 ，DBM 可 
以 很 好 地 表示 分 布 ， 但 是 没有 比 仅 使 用 RBM 获得 更 高 的 似 然 。 除 第 一 层 之 外 ， 所 
有 层 都 具有 非常 小 权重 的 DBM 与 RBM 表示 大 致 相同 的 分 布 。 

如 第 20.4.5 节 所 述 ， 目 前 已 经 开发 了 人 允许 联合 训练 的 各 种 技术 。 然 而 ， 克 
fk DBM 的 联合 训练 问题 最 初 和 最 流行 的 方法 是 贪心 逐 层 预 训 练 。 在 该 方法 中 ， 
DBM 的 每 一 层 被 单独 视 为 RBM， 进 行 训 练 。 第 一 层 被 训练 为 对 输入 数据 进行 建 模 。 
每 个 后 续 RBM 被 训练 为 对 来 自前 一 RBM 后 验 分 布 的 样本 进行 建 模 。 在 以 这 种 方 
式 训练 了 所 有 RBM 之 后 ， 它 们 可 以 被 组 合成 DBM。 然 后 可 以 用 PCD 训练 DBM. 
通常 ，PCD 训练 将 仅 使 模型 的 参数 、 由 数据 上 的 对 数 似 然 衡 量 的 性 能 、 或 区 分 输入 
的 能 力 发 生 微小 的 变化 。 见 图 20.4 展示 的 训练 过 程 。 

这 种 贪心 逐 层 训练 过 程 不 仅仅 是 坐标 上 升 。 因 为 我 们 在 每 个 步骤 优化 参数 的 一 
个 子 集 ， 它 与 坐标 上 升 具 有 一 些 传递 相似 性 。 这 两 种 方法 是 不 同 的 ， 因 为 贪心 逐 层 
训练 过 程 中 ， 我 们 在 每 个 步骤 都 使 用 了 不 同 的 目标 函数 。 

DBM 的 贪心 逐 层 预 训练 与 DBN 的 贪心 逐 层 预 训 练 不 同 ,每 个 单独 的 RBM 的 参 
数 可 以 直接 复制 到 相应 的 DBN。 在 DBM 的 情况 下 , RBM 的 参数 在 包含 到 DBM 中 
之 前 必须 修改 。RBM 栈 的 中 间 层 仅 使 用 自 底 向 上 的 输入 进行 训练 ， 但 在 栈 组 合 
形成 DBM 后 ， 该 层 将 同时 具有 自 底 向 上 和 自 项 向 下 的 输入 。 为 了 解释 这 种 效应 ， 
Salakhutdinov and Hinton (2009a) 提倡 在 将 其 插入 DBM 之 前 ,将 所 有 RBM (M 
部 和 底部 RBM 除外 ) 的 权重 除 2。 另 外 ， 必 须 使 用 每 个 可 见 单元 的 两 个 “副本 ”来 
训练 底部 RBM， 并 且 两 个 副本 之 间 的 权重 约束 为 相等 。 这 意味 着 在 向 上 传播 时 ， 权 
重 能 有 效 地 加 倍 。 类 似 地 ， 顶 部 RBM 应 当 使 用 最 顶层 的 两 个 副本 来 训练 。 

为 了 使 用 深度 玻 尔 效 曼 机 获得 最 好 结果 ,我 们 需要 修改 标准 的 SML 算法 , 即 在 联 
E PCD 训练 步 又 的 负 相 期 间 使 用 少量 的 均匀 场 (Salakhutdinov and Hinton, 2009a)。 
具体 来 说 ， 应 当 相对 于 其 中 所 有 单元 彼此 独立 的 均匀 场 分 布 来 计算 能 量 梯 度 的 期 望 。 
这 个 均匀 场 分 布 的 参数 应 该 通过 运行 一 次 均匀 场 不 动 点 方程 获得 。Goodfellow et al. 
(2013d) 比较 了 在 负 相 中 使 用 和 不 使 用 部 分 均匀 场 的 中 心 化 DBM 的 性 能 。 
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算法 20.1 用 于 训练 具有 两 个 隐藏 层 的 DBM 的 变 分 随机 最 大 似 然 算 法 
设 步 长 e 为 一 个 小 正 数 
设 eae ae a 大 到 足以 让 p(v, hh, h; 0 + A0) 的 马尔 可 夫 链 能 磨合 (从 
来 自 plv, AD, hP; 0) 的 样本 开始 )。 
人 
分 布 ， 边 缘分 布 大 致 与 模型 匹配 )。 
while 没有 收敛 ( 学 习 循 环 ) do 
从 训练 数据 采 包 含 m 个 样本 的 小 批量 ， 并 将 它们 排列 为 设计 矩阵 V 的 行 。 
初始 化 矩阵 A Ai B®, 使 其 大 致 符合 模型 的 边缘 分 布 。 
while 没有 收敛 (均匀 场 推断 循环 ) do 
如 sigmoid os +H mo ). 
a” + sigmoid (a we) ). 
end while 
Awo —2 TR f 
Awo + 1 1 A TA 
metih (Gibbs 采样 ) do 
Gibbs block 1: z 
Vi, j, Vig $ NE: Z ‘ = sigmoid (my (H) 
Vi, j, H HO 采 X A P(A! = 1) = sigmoid (H we). 
Gibbs wa 2: 
Vi, j, H AO K X A P(A = 1) = sigmoid (元 :WY + HP wet ). 
end for 
AA Ayo FAV A” 
A yo tg wih THOTH?” 
WY — WO 4 Aya (这 是 大 概 的 描述 ， 实 践 中 使 用 的 算法 更 高 效 ， 如 具有 
衰减 学 习 率 的 动量 ) 
WP — WÊ + Aye 


end while 








(1) 





ww ai bbt. com DO0O0000 


dourbz/350DFO 


20.4 深度 玻 尔 效 曼 机 573 























图 20.4: 用 于 分 类 MNIST 数据 集 的 深度 玻 尔 效 曼 机 训练 过 程 (Salakhutdinov and Hinton, 2009a; 
Srivastava et al., 2014)。(a) 使 用 CD 近似 最 大 化 log P(v) 来 训练 RBM。(b) 训练 第 二 个 RBM, 使 
CD-k 近似 最 大 化 log P(A, y) 来 建 模 hO 和 目标 类 y， 其 中 AY 采 自 第 一 个 RBM 条 件 于 数 
据 的 后 验 。 在 学 习 期 间 将 k 从 1 增加 到 20。(c) 将 两 个 RBM 组 合 为 DBM。 使 用 k = 5 的 随机 最 
大 似 然 训练 , 近似 最 大 化 log P(v,y)。(qd) 将 y 从 模型 中 删除 。 定义 新 的 一 组 特征 hO 和 hO, a 
在 缺少 y 的 模型 中 运行 均匀 场 推断 后 获得 。 使 用 这 些 特征 作为 MLP 的 输入 ， 其 结构 与 均匀 场 的 额 
外 轮 相同 ,并 且 具 有 用 于 估计 y 的 额外 输出 层 。 初 始 化 MLP 的 权重 与 DBM 的 权重 相同 。 使 用 随机 
梯度 下 降 和 Dropout 训 练 MLP 近 似 最 大 化 log P(y | v)。 图 来 自 Goodfellow et al. (2013d)。 









































































































































20.4.5 ”联合 训练 深度 玻 尔 将 曼 机 


经 典 DBM 需要 贪心 无 监督 预 训练 ， 并 且 为 了 更 好 的 分 类 ， 需 要 在 它们 提取 
的 隐藏 特征 之 上 ， 使 用 独立 的 基于 MLP 的 分 类 器 。 这 种 方法 有 一 些 不 理想 的 性 
质 。 因 为 我 们 不 能 在 训练 第 一 个 RBM 时 评估 完整 DBM 的 属性 ， 所 以 在 训练 期 间 
难以 跟踪 性 能 。 因 此 ， 直 到 相当 晚 的 训练 过 程 ， 我 们 都 很 难 知道 我 们 的 超 参数 表 




















ww ai bbt.com DUODDOODOD 


dou.bz/350DPo0_ 


574 第 二 十 章 深度 生成 模型 


现 如 何 。DBM 的 软件 实现 需要 很 多 不 同 的 模块 ， 如 用 于 单个 RBM 的 CD 训练 、 
完整 DBM 的 PCD 训练 以 及 基于 反 向 传播 的 MLP 训练 。 最 后 ， 玻 尔 兹 曼 机 顶部 
的 MLP 失去 了 玻 尔 效 曼 机 概率 模型 的 许多 优点 ， 例 如 当 某 些 输入 值 丢 失 时 仍 能 够 
进行 推断 的 优点 。 

主要 有 两 种 方法 可 以 处 理 深度 玻 尔 效 曼 机 的 联合 训练 问题 。 第 一 个 是 中 心 化 深 
度 玻 尔 兹 曼 机 (centered deep Boltzmann machine) (Montavon and Muller, 2012), 通 
过 重 参 数 化 模型 使 其 在 开始 学 习 过 程 时 代价 函数 的 Hessian 具有 更 好 的 条 件数 。 这 
个 模型 不 用 经 过 贪心 逐 层 预 训练 阶段 就 能 训练 。 这 个 模型 在 测试 集 上 获得 出 色 的 
对 数 似 然 ， 并 能 产生 高 质量 的 样本 。 不 笠 的 是 ， 作 为 分 类 器 ， 它 仍然 不 能 与 适当 正 
则 化 的 MLP 竞争 。 联 合 训练 深度 玻 尔 效 曼 机 的 第 二 种 方式 是 使 用 多 预测 深度 玻 尔 
兹 曼 机 ( multi-prediction deep Boltzmann machine, MP-DBM ) (Goodfellow et al., 
2013d)。 该 模型 的 训练 准则 允许 反 向 传播 算法 ， 以 避免 使 用 MCMC 估计 梯度 的 问 
题 。 不 笠 的 是 ,新 的 准则 不 会 导致 良好 的 似 然 性 或 样本 ， 但 是 相 比 MCMC 方法 , 它 
确实 会 导致 更 好 的 分 类 性 能 和 良好 的 推 师 缺失 输入 的 能 

如 果 我 们 回 到 玻 尔 兹 曼 机 的 一 般 观点 ， 即 包括 一 组 权重 矩阵 U 和 偏 置 b 的 单元 
Z， 玻 尔 效 曼 机 中 心 化 技巧 是 最 容易 描述 的 。 回 顾 式 (20.2) ， 能 量 函 数 由 下 式 给 出 

















E(x) = —a' Uz — b' z. (20.36) 


在 权重 矩阵 U PEHA EA REN, RATE AKWA E EH AID R2 BL, 
如 RBM 或 具有 不 同 层 数 的 DBM。 将 z 分 割 成 可 见 和 隐藏 单元 并 将 U 中 不 相互 作 
用 的 单元 的 归 零 可 以 实现 这 些 架构 。 中 心 化 玻 尔 兹 曼 机 引入 了 一 个 向 量 jy， 并 从 所 
有 状态 中 减 去 : 





E' (a U, b) = —(2— pp) U(x — p) — (x — p)'d. (20.37) 


通常 u 在 开始 训练 时 固定 为 一 个 超 参数 。 当 模型 初始 化 时 ， 通 常 选 择 为 z- ux 0。 
这 种 重 参数 化 不 改变 模型 可 表示 的 概率 分 布 的 集合 ， 但 它 确实 改变 了 应 用 于 似 然 
的 随机 梯度 下 降 的 动态 。 具 体 来 说 ， 在 许多 情况 下 ， 这 种 重 参 数 化 导致 更 好 条 件数 
的 Hessian 矩阵。Melchior et al. (2013) 通过 实验 证 实 了 Hessian 矩阵 条 件数 的 改 
善 ,并 观察 到 中 心 化 技巧 等 价 于 另 一 个 玻 尔 效 曼 机 学 习 技术 一 一 增强 梯度 (enhanced 
gradient) (Cho et al., 2011)。 即 使 在 困难 的 情况 下 ， 例 如 训练 多 层 的 深度 玻 尔 效 曼 
机 ，Hessian 矩阵 条 件数 的 改善 也 能 使 学 习 成 功 。 


联合 训练 深度 玻 尔 兹 曼 机 的 男 一 种 方法 是 多 预测 深度 玻 尔 兹 曼 机 ( MP-DBM ), 
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它 将 均匀 场 方程 视 为 定义 一 系列 用 于 近似 求解 每 个 可 能 推断 问题 的 循环 网 络 (Good- 
fellow et al., 2013d)。 模 型 被 训练 为 使 每 个 循环 网 络 获得 对 相应 推断 问题 的 准确 答 
案 ， 而 不 是 训练 模型 来 最 大 化 似 然 。 训 练 过 程 如 图 20.5 所 示 。 它 包括 随机 采 一 个 训 
练 样本 、 随 机 采样 推断 网 络 的 输入 子 集 ， 然 后 训练 推断 网 络 来 预测 剩余 单元 的 值 。 

这 种 用 于 近似 推断 ， 通 过 计算 图 进行 反 向 传播 的 一 般 原 理 已 经 应 用 于 其 他 模 
型 (Stoyanov et al., 2011; Brakel et al., 2013)。 在 这 些 模 型 和 MP-DBM 中 ， 最 终 损 
失 不 是 似 然 的 下 界 。 相 反 ， 最 终 损失 通常 基于 近似 推断 网 络 对 缺失 值 施加 的 近似 条 
件 分 布 。 这 意味 着 这 些 模 型 的 训练 有 些 启 发 式 。 如 果 我 们 检查 由 MP-DBM 学 习 出 来 
的 玻 尔 效 曼 机 表示 p(v), TE Gibbs 采样 产生 较 差 样本 的 意义 下 ， 它 倾向 于 有 些 缺 陷 。 

通过 推断 图 的 反 向 传播 有 两 个 主要 优点 。 首 先 ， 它 以 模型 真正 使 用 的 方式 训练 
模型 一 一 使 用 近似 推断 。 这 意味 着 在 MP-DBM 中 ， 进 行 如 填充 缺失 的 输入 或 执行 
分 类 (尽管 存在 缺失 的 输入 ) 的 近似 推断 比 在 原始 DBM 中 更 准确 。 原 始 DBM 不 
会 自己 做 出 准确 的 分 类 器 ; 使 用 原始 DBM 的 最 佳 分 类 结果 是 基于 DBM 提取 的 特 
征 训练 独立 的 分 类 器 ， 而 不 是 通过 使 用 DBM 中 的 推断 来 计算 关于 类 标签 的 分 布 。 
MP-DBM 中 的 均匀 场 推断 作为 分 类 器 ， 不 需要 进行 特殊 修改 就 获得 良好 的 表现 。 通 
过 近似 推断 反问 传播 的 男 一 个 优点 是 反 向 传播 计算 损失 的 精确 梯度 。 对 于 优化 而 言 ， 
比 SML 训练 中 具有 偏差 和 方差 的 近似 梯度 更 好 。 这 可 能 解释 了 为 什么 MP-DBM 可 
以 联合 训练 ， 而 DBM 需要 贪心 逐 层 预 训练 。 近 似 推 断 图 反 向 传播 的 缺点 是 它 不 提 
供 一 种 优化 对 数 似 然 的 方法 ， 而 提供 广义 伪 似 然 的 启发 式 近似 。 

MP-DBM 启发 了 对 NADE 框架 的 扩展 NADE-k (Raiko et al., 2014) ， 我 们 将 
在 第 20.10.10 节 中 描述 。 


MP-DBM 与 Dropout 有 一 定 联系 。Dropout 在 许多 不 同 的 计算 图 之 间 共 享 相 
同 的 参数 ， 每 个 图 之 间 的 差异 是 包括 还 是 排除 每 个 单元 。MP-DBM 还 在 许多 计算 
图 之 间 共 享 参数 。 在 MP-DBM 的 情况 下 ， 图 之 间 的 差异 是 每 个 输入 单元 是 否 被 观 
察 到 。 当 没有 观察 到 单元 时 ，MP-DBM 不 会 像 Dropout 那样 将 其 完全 删除 。 相 反 ， 
MP-DBM 将 其 视 为 要 推断 的 潜 变 量 。 我 们 可 以 想象 将 Dropout 应 用 到 MP-DBM, 
即 额 外 去 除 一 些 单元 而 不 是 将 它们 变 为 潜 变 量 。 
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图 20.5: 深度 玻 尔 效 曼 机 多 预测 训练 过 程 的 示意 图 。 每 一 行 指示 相同 训练 步 又 内 小 批量 中 的 不 同 
样本 。 每 列表 示 均 匀 场 推断 过 程 中 的 时 间 步 。 对 于 每 个 样本 ,我 们 对 数据 变量 的 子 集 进行 采样 ， 作 
为 推断 过 程 的 输入 。 这 些 变量 以 黑色 阴影 表示 条 件 。 然 后 我 们 运行 均匀 场 推断 过 程 ， 箭 头 指示 过 
程 中 的 哪些 变量 会 影响 其 他 变量 。 在 实际 应 用 中 ， 我 们 将 均匀 场 展 开 为 几 个 步 又 。 在 此 示意 图 中 ， 
我 们 只 展开 为 两 个 步 又。 虚线 箭头 表示 获得 更 多 步骤 需要 如 何 展 开 该 过 程 。 未 用 作 推 新 过 程 输 入 
的 数据 变量 成 为 目标 ， 以 灰色 阴影 表示 。 我 们 可 以 将 每 个 样本 的 推断 过 程 视 为 循环 网 络 。 为 了 使 
其 在 给 定 输入 后 能 产生 正确 的 目标 ， 我 们 使 用 梯度 下 降 和 反 向 传播 训练 这 些 循环 网 络 。 这 可 以 训 
练 MP-DBM 均匀 场 过 程 产生 准确 的 估计 。 图 改编 自 Goodfellow et al. (2013d)。 
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20.5 “ 实 值 数 据 上 的 玻 尔 效 曼 机 


虽然 玻 尔 效 曼 机 最 初 是 为 二 值 数据 而 开发 的 ， 但 是 许多 应 用 ， 例 如 网 像 和 音频 
建 模 似乎 需要 表示 实 值 上 概率 分 布 的 能 力 。 在 一 些 情 况 下 ， 我 们 可 以 将 区 间 [0,1] 中 
的 实 值 数 据 视 为 表示 二 值 变量 的 期 望 。 例 如 ，Hinton (2000) 将 训练 集中 灰 度 图 像 的 
像素 值 视 为 定义 [0, 1] 间 的 概率 值 。 每 个 像素 定义 二 值 变 量 为 1 的 概率 ,并 日 二 值 像 
素 的 采样 都 彼此 独立 。 这 是 评估 灰 度 图 像 数 据 集 上 二 值 模型 的 常见 过 程 。 然 而 ， 这 
种 方法 理论 上 并 不 特别 令 人 满意 ， 并 且 以 这 种 方式 独立 采样 的 二 值 图 像 具 有 噪声 表 
象 。 在 本 节 中 ， 我 们 介绍 概率 密度 定义 在 实 值 数 据 上 的 玻 尔 效 曼 机 。 





20.5.1 Gaussian-Bernoulli RBM 





受 限 玻 尔 效 曼 机 可 以 用 于 许多 指数 族 的 条 件 分 布 (Welling et al., 2005). Hep, 
最 常见 的 是 具有 二 值 隐藏 单元 和 实 值 可 见 单元 的 RBM， 其 中 可 见 单元 上 的 条 件 分 布 
是 高 斯 分 布 〈 均 值 为 隐藏 单元 的 函数 )。 

有 很 多 方法 可 以 参数 化 Gaussian-Bernoulli RBM。 首 先 ， 我 们 可 以 选择 协 方差 
和 矩阵 或 精度 矩阵 来 参数 化 高 斯 分 布 。 这 里 ,我 们 介绍 选择 精度 矩阵 的 情况 。 我 们 可 
以 通过 简单 的 修改 获得 协 方差 的 形式 。 我 们 希望 条 件 分 布 为 





plv | h) = N (v; Wh, 87+). (20.38) 
通过 扩展 未 归 一 化 的 对 数 条 件 分 布 可 以 找到 需要 添加 到 能 量 函 数 中 的 项 ; 
logN(v; Wh, 8-!) = -5(o- Wh)" B(v— Wh) + f(B). (20.39) 


此 处 f 封装 所 有 的 参数 ， 但 不 包括 模型 中 的 随机 变量 。 因 为 f 的 唯一 作用 是 归 
一 化 分 布 ， 并 且 我 们 选择 的 任何 可 作为 配 分 函数 的 能 量 冰 数 都 能 起 到 这 个 作用 ， 所 
以 我 们 可 以 忽略 fo 

如 果 我 们 在 能 量 函 数 中 包含 式 (20.39) 中 涉及 v 的 所 有 项 ( 其 符号 被 翻转 )， 并 
且 不 添加 任何 其 他 涉及 v 的 项 ， 那 么 我 们 的 能 量 函 数 就 能 表示 想 要 的 条 件 分 布 
p(v | 各。 

其 他 条 件 分 布 比较 自由 ， 如 p(h | v)。 注 意 式 (20.39) 包含 一 项 





1 
3h W' B Wh. (20.40) 
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因为 该 项 包含 hih; 项 ， 它 不 能 被 全 部 包括 在 内 。 这 些 对 应 于 隐藏 单元 之 间 的 边 。 如 
果 我 们 包括 这 些 项 ， 我 们 将 得 到 一 个 线性 因子 模型 ， 而 不 是 受 限 玻 尔 兹 曼 机 。 当 设 
计 我 们 的 玻 尔 兹 曼 机 时 ， 我 们 简单 地 省 略 这 些 hihj 交叉 项 。 省 略 这 些 项 不 改变 条 件 
分 布 p(v | h), BEIR (20.39) 仍 满足 。 然而 ,我们 仍然 可 以 选择 是 否 包括 仅 涉及 单个 
hi 的 项 。 如 果 我 们 假设 精度 矩阵 是 对 角 的 ， 就 能 发 现 对 于 每 个 隐藏 单元 h, RITA 
一 项 





1 2 
ahi 2 Wis (20.41) 
J 


在 上 面 ， 我 们 使 用 了 h? = h; 的 事实 〈 因 为 h; € {0,1} )。 如 果 我 们 在 能 量 函 数 中 包 
含 此 项 (符号 被 翻转 )， 则 当 该 单元 的 权重 较 大 且 以 高 精度 连接 到 可 见 单 元 时 ， 偏 
置 h 将 自然 被 关闭 。 是 否 包括 该 偏 置 项 不 影响 模型 可 以 表示 的 分 布 族 (假设 我 们 包 
括 隐藏 单元 的 偏 置 参数 )， 但 是 它 确 实 会 影响 模型 的 学 习 动 态 。 包 括 该 项 可 以 帮助 隐 
藏 单元 (即使 权重 在 幅度 上 快速 增加 时 ) 保持 合理 激活 。 

因此 ， 在 Gaussian-Bernoulli RBM 上 定义 能 量 函 数 的 一 种 方式 : 








E(u, h) = 50" (80 v) — (vO B) Wh- bh, (20.42) 


但 我 们 还 可 以 添加 额外 的 项 或 者 通过 方差 而 不 是 精度 参数 化 能 量 。 

在 这 个 推导 中 ,我 们 没有 在 可 见 单元 上 添加 偏 置 项 ， 但 添加 这 样 的 偏 置 是 容易 
的 。Gaussian-Bernoulli RBM 参数 化 一 个 最 终 变化 的 来 源 是 如 何 处 理 精度 矩阵 的 选 
择 。 它 可 以 被 固定 为 常数 ( 可 能 基于 数据 的 边缘 精度 估计 ) 或 学 习 出 来 。 它 也 可 以 
是 标量 乘 以 单位 矩阵 ， 或 者 是 一 个 对 角 和 矩阵 。 在 此 情况 下 ， 由 于 一 些 操作 需要 对 算 
阵 求 逆 , 我 们 通常 不 允许 非 对 角 的 精度 矩阵 ， 因 为 高 斯 分 布 的 一 些 操 作 需 要 对 矩阵 求 
wi, 一 个 对 角 和 矩阵 可 以 非常 容易 地 被 求 逆 。 在 接 下 来 的 章节 中 , 我 们 将 看 到 其 他 形式 
的 玻 尔 兹 曼 机 ， 它 们 允许 对 协 方差 结构 建 模 ， 并 使 用 各 种 技术 避免 对 精度 矩阵 求 逆 。 





























20.5.2 ”条 件 协 方 差 的 无 向 模型 


虽然 高 斯 RBM 已 成 为 实 值 数据 的 标准 能 量 模 型 , Ranzato et al. (2010a) 认为 高 
斯 RBM 感应 偏 置 不 能 很 好 地 适合 某 些 类 型 的 实 值 数据 中 存在 的 统计 变化 ， 特 别 是 
自然 图 像 。 问 题 在 于 自然 图 像 中 的 许多 信息 内 容 嵌 入 于 像素 之 间 的 协 方差 而 不 是 
原始 像素 值 中 。 换 名 话说， 图 像 中 的 大 多 数 有 用 信息 在 于 像素 之 间 的 关系 ， 而 不 是 
其 绝对 值 。 由 于 高 斯 RBM 仅 对 给 定 隐 藏 单元 的 输入 条 件 均值 建 模 ， 所 以 它 不 能 捕 
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获 条 件 协 方差 信息 。 为 了 回应 这 些 评论 , 已 经 有 学 者 提出 了 替代 模型 ， 设 法 更 好 地 
考虑 实 值 数据 的 协 方差 。 这 些 模 型 包括 均值 和 协 方差 RBM (mean and covariance 
RBM, mcRBM ) 1、 学 生 t 分 布 均值 乘积 (mean product of Student t-distribution, 
mPoT ) 模型 和 尖峰 和 平板 RBM (spike and slab RBM, ssRBM )。 


均值 和 协 方差 RBM mcRBM 使 用 隐藏 单元 独立 地 编码 所 有 可 观察 单元 的 条 件 均 
值 和 协 方差 。mcRBM 的 隐藏 层 分 为 两 组 单元 : 均值 单元 和 协 方差 单元 。 建 模 条 件 
均值 的 那 组 单元 是 简单 的 高 斯 RBM。 另 一 半 是 协 方 差 RBM (covariance RBM, 
cRBM ) (Ranzato et al., 2010a) ， 对 条 件 协 方差 的 结构 进行 建 模 (如 下 所 述 )。 

具体 来 说 , 在 二 值 均值 的 单元 h” 和 二 值 协 方差 单元 ht 的 情况 下 , mcRBM 模 
型 被 定义 为 两 个 能 量 函 数 的 组 合 : 


Emclz, ho, AO) = By, (a, h™) + Elz, ho), (20.43) 





其 中 Emn 为 标准 的 Gaussian-Bernoulli RBM fete RKA, 





m 1 m m m 
E,, (a, hí ) = 57 z- J z Wah Sern, (20.44) 
J 了 
E, 是 CRBM 建 模 条 件 协 方差 信息 的 能 量 函 数 : 
1 an2 
ON (e) (T (p (o) 
E.(a,h ) ee (aby) 这 hi? (20.45) 
si J 


参数 rO 与 hO 关联 的 协 方差 权重 向 量 对 应 ，& 9 是 一 个 协 方差 偏 置 向 量 。 组 合 后 
的 能 量 函数 定义 联合 分 布 ， 


1 
Pme(@, A™, AO) = > exp { — Enel, h™, WIE (20.46) 

















以 及 给 定 A 和 hO 后 ， 关 于 观察 数据 相应 的 条 件 分 布 〈 为 一 个 多 元 高 斯 分 布 ): 


palek, nO) =w (os cs I wan), es). (20.47) 
J 

注意 协 方差 矩阵 CR = (D hOr) 是 非 对 角 的 ， 且 W 是 与 建 模 条 件 
均值 的 高 斯 RBM 相关 联 的 权重 矩阵 。 由 于 非 对 角 的 条 件 协 方差 结构 ， 难 以 通过 对 





1 术语 “mcRBM” 根据 字母 M-C-R-B-M 发 音 ; “mc” 不 是 “McDonald's” 中 的 “Mc” 的 发 音 。 
?这 个 版 本 的 Gaussian-Bernoulli RBM 能 量 函 数 假定 图 像 数据 的 每 个 像素 具有 零 均 值 。 考 虑 非 零 像 素 均 值 时 ， 可 
以 简单 地 将 像素 偏 移 添加 到 模型 中 。 
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比 散 度 或 持续 性 对 比 散 度 来 训练 mcRBM. CD 和 PCD 需要 从 a, A”, hO 的 联合 
分 布 中 采样 ， 这 在 标准 RBM 中 可 以 通过 Gibbs 采样 在 条 件 分 布 上 采样 实现 。 但是， 
在 mcRBM 中 ， 从 pne(z | AO”, RO) 中 抽样 需要 在 学 习 的 每 个 迭代 计算 (C0C™)-1。 
这 对 于 更 大 的 观察 数据 可 能 是 不 切实 际 的 计算 负担 。Ranzato and Hinton (2010) if 
过 使 用 mcRBM 自由 能 上 的 哈密 尔 顿 (混合 ) 蒙特 卡 罗 (Neal, 1993) 直接 从 边缘 
p(z) 采样 ， 避 免 了 直接 从 条 件 pmc(z | RO, AO) 抽样 。 











FE t 分 布 均值 乘积 “学生 上 分 布 均值 乘积 (mPoT ) 模型 (Ranzato et al., 2010b) 
以 类 似 mcRBM 扩展 cRBM 的 方式 扩展 PoT 模型 (Welling et al., 2003a)。 通 过 添 
加 类 似 高 斯 RBM 中 隐藏 单元 的 非 零 高 斯 均值 来 实现 。 与 mcRBM 一 样 ， 观 察 值 上 
的 PoT 条 件 分 布 是 多 元 高 斯 ( 具有 非 对 角 的 协 方差 ) 分 布 ; 然而 , 不 同 于 mcRBM , 
隐藏 变量 的 互补 条 件 分 布 是 由 条 件 独 立 的 Gamma 分 布 给 出 。Gamma 分 布 G(k, 0) 
是 关于 正 实数 且 均 值 为 ko 的 概率 分 布 。 我们 只 需 简 单 地 了 解 Gamma 分 布 就 足以 理 

解 mPoT 模型 的 基本 思想 。 

mPoT KJEE KAO : 
Empot (a, h, hn) (20.48) 


c 1 ; Cc 
= En (æ, h™)+ > (n ‘a+ 5 (MP ax)?) + (1 — 74) log hf i (20.49) 
j 


其 中 rO 是 与 单元 nO? 相关 联 的 协 方差 权重 向 量 ，(z, h) 如 式 (20.44) 所 定义 。 
正如 mcRBM 一 样 ，mPoT 模型 能 量 琐 数 指定 一 个 多 元 高 斯 分 布 ， 其 中 关于 z 
的 条 件 分 布 具 有 非 对 角 的 协 方差 。mPoT 模型 中 的 学 习 (也 像 mcRBM ) 由 于 无 法 
从 非 对 角 高 斯 条 件 分 布 papor(z | ho”, AO) 采样 而 变 得 复杂 。 因 此 Ranzato et al. 
(2010b) 也 倡导 通过 哈密 尔 顿 ( 混合 ) 蒙特 卡 罗 (Neal, 1993) 直接 采样 p(z)。 





尖峰 和 平板 RBM ”尖峰 和 平板 RBM (spike and slab RBM, ssRBM ) (Courville 
et al., 2011b) 提供 对 实 值 数 据 的 协 方差 结构 建 模 的 另 一 种 方法 。 与 mcRBM 相 
比 ，ssRBM 具有 既 不 需要 和 抑 阵 求 逆 也 不 需要 哈密 尔 顿 蒙 特 卡 罗 方 法 的 优点 。 就 
像 mcRBM 和 mPoT 模型 ，ssRBM 的 二 值 隐藏 单 元 通过 使 用 辅助 实 值 变量 来 编码 
跨 像素 的 条 件 协 方差 。 

尖峰 和 平板 RBM 有 两 类 隐藏 单元 : 二 值 尖峰 (spike) 单元 h 和 实 值 平板 (slab) 
单元 so 条件 于 隐藏 单元 的 可 见 单元 均值 由 (Po s)W" 给 出 。 换 名 话说 , 每 一 列 W. 
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EM h; = 1 时 可 出 现在 输入 中 的 分 量 。 相 应 的 尖峰 变量 h; 确定 该 分 量 是 否 存 在 。 
如 果 存 在 的 话 ， 相 应 的 平板 变量 s; 确定 该 分 量 的 强度 。 当 尖峰 变量 激活 时 ， 相 应 的 
平板 变量 将 沿 着 W. 定义 的 轴 的 输入 增加 方差 。 这 允许 我 们 对 输入 的 协 方差 建 模 。 
幸运 的 是 ， 使 用 Gibbs 采样 的 对 比 散 度 和 持续 性 对 比 散 度 仍然 适用 。 此 处 无 需 对 任 
fr RE A IŚ 

形式 上 ，ssRBM 模型 通过 其 能 量 函 数 定义 : 








1 
T. T 
E,,(x, 8, h) = — 2, Z W.isihi + 52 (s + 2 vi) x (20.50) 


+ 5 wet = Gp 一 ye + De oss (20.51) 


其 中 b; 是 尖峰 h 的 偏 置 ，A 是 观测 值 > EREE. Be a; > 0 是 实 值 平 
板 变 量 si 的 标量 精度 参数 。 参 数 B, 是 定义 z 上 的 产 调 制 二 次 惩罚 的 非 负 对 角 矩 
阵 。 每 个 ji; 是 平板 变量 si 的 均值 参数 。 
利用 能 量 函 数 定义 的 联合 分 布 ， 能 相对 容易 地 导出 ssRBM 条 件 分 布 。 例如, 通 
过 边缘 化 平板 变量 s， 给 定 二 值 尖峰 变量 h， 关 于 观察 量 的 条 件 分 布 由 下 式 给 出 
1 


Pss(æ | h) = rg | oree s, h)}ds (20.52) 




















( 
=N (z Co, >, Winihs, Cin) (20.53) 





其 中 OCS, = (A+ D, Bihi — D7 hi WiW.;) 1。 最 后 的 等 式 只 有 在 协 方差 矩阵 
Cah 正定 时 成 立 。 

由 尖峰 变量 选 通 意味 着 hos 上 的 真实 边缘 分 布 是 稀疏 的 。 这 不 同 于 稀 蚊 编码 ， 
其 中 来 自 模 型 的 样本 在 编码 中 “几乎 从 不 ”( 在 测度 理论 意义 上 ) 包含 零 ， 并 日 需 
要 MAP 推 断 来 强加 稀 玖 性 。 

HILL mcRBM 和 mPoT 模型 ， ssRBM 以 明显 不 同 的 方式 参数 化 观察 量 的 条 件 
协 方差 。mcRBM 和 mPoT 都 通过 (Dy, Ar rT + NT 建 模 观察 量 的 协 方差 
结构 ， 使 用 hy > 0 的 隐藏 单元 的 激活 来 对 方向 rO 的 条 件 协 方差 施加 约束 。 相 反 ， 
ssRBM 使 用 隐藏 尖峰 激活 hi = 1 来 指定 观察 结果 的 条 件 协 方差 ， 以 沿 着 由 相应 权 
重 向 量 指定 的 方向 捏合 精度 矩阵 。ssRBM 条 件 协 方差 与 一 个 不 同 模型 给 出 的 类 似 : 
概率 主 成 分 分 析 的 乘积 (PoPPCA ) (Williams and Agakov, 2002)。 在 过 完备 的 设 定 
下 ，ssRBM 参数 化 的 稀 玻 激活 仅 人 允许 在 稀 玻 激活 h, 的 所 选 方 向 上 有 显著 方差 (高 
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于 由 AT! 给 出 的 近似 方差 )。 在 mcRBM 或 mPoT 模型 中 ， 过 完备 的 表示 意味 着 ， 
捕获 观察 空间 中 特定 方向 上 的 变化 需要 在 该 方向 上 的 正 交 投影 下 去 除 潜在 的 所 有 约 
束 。 这 表明 这 些 模型 不 太 适 合 于 过 完备 设 定 。 

尖峰 和 平板 RBM 的 主要 缺点 是 参数 的 一 些 设置 会 对 应 于 非 正 定 的 协 方差 矩阵 。 
这 种 协 方差 矩阵 会 在 离 均 值 更 远 的 值 上 放置 更 大 的 未 归 一 化 概率 ， 导 致 所 有 可 能 结 
果 上 的 积分 发 散 。 通 常 这 个 问题 可 以 通过 简单 的 启发 式 技巧 来 避免 。 理 论 上 还 没有 
任何 令 人 满意 的 解决 方法 。 使 用 约束 优化 来 显 式 地 避免 概率 未 定义 的 区 域 (不 过 分 
保守 是 很 难 做 到 的 )， 并 且 这 还 会 阻止 模型 到 达 参 数 空间 的 高 性 能 区 域 。 

定性 地 ，ssRBM 的 卷 积 变 体能 产生 自然 图 像 的 优秀 样本 。 图 16.1 中 展示 了 一 些 
样 例 。 

ssRBM 人 允许 几 个 扩展 ， 包 括 平板 变量 的 高 阶 交 互 和 平均 池 化 (Courville et al., 
2014) 使 得 模型 能 够 在 标注 数据 稀缺 时 为 分 类 妖 学 习 到 出 色 的 特征 。 向 能 量 函 
数 添 加 一 项 能 防止 配 分 函数 在 稀 玻 编码 模型 下 变 得 不 确定 ， 如 尖峰 和 平板 稀 玻 编 
但 (Goodfellow et al., 2013g) ， 也 称 为 S3C. 








20.6 AHR =A 


如 第 九 章 所 示 ， 超 高 维度 输入 〈 如 图 像 ) 会 对 机 器 学 习 模 型 的 计算 、 内 存 和 统 
计 要 求 造 成 很 大 的 压力 。 通 过 使 用 小 核 的 离散 卷 积 来 蔡 换 和 矩 阵 乘法 是 解决 具有 空间 
平移 不 变性 或 时 间 结 构 的 输入 问题 的 标准 方式 。Desjardins and Bengio (2008) 表明 
这 种 方法 应 用 于 RBM 时 效果 很 好 。 

深度 卷 积 网 络 通常 需要 池 化 操作 ， 使 得 每 个 连续 层 的 空间 大 小 减 小 。 前 馈 卷 积 
网 络 通常 使 用 池 化 函数 ， 例 如 池 化 元 素 的 最 大 值 。 目 前 尚 不 清楚 如 何 将 其 推广 到 基 
于 能 量 的 模型 的 设 定 中 。 我 们 可 以 在 ”个 二 值 检测 器 单元 d 上 引入 二 值 池 化 单元 p， 
强制 p= max; d;， 并 且 当 违反 约束 时 将 能 量 函 数 设置 为 co。 因 为 它 需要 评估 2" 个 
不 同 的 能 量 设置 来 计算 归 一 化 常数 ,这 种 方式 不 能 很 好 地 扩展 。 对 于 小 的 3 x 3 池 化 
区 域 ， 每 个 池 化 单元 需要 评估 2° = 512 AAEE KA! 

Lee et al. (2009) 针对 这 个 问题 ， 开 发 了 一 个 称 为 概率 最 大 池 化 (probabilistic 
max pooling) 的 解决 方案 (不 要 与 “随机 池 化 ” 混 消 ,“ 随 机 池 化 ”是 用 于 隐 含 地 构 
建 卷 积 前 馈 网 络 集成 的 技术 )。 概 率 最 大 池 化 背后 的 策略 是 约束 检测 器 单元 ， 使 得 一 
次 最 多 只 有 一 个 可 以 处 于 活动 状态 。 这 意味 着 仅 存 在 n 十 1 个 总 状态 Cn 个 检测 需 
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单元 中 某 一 个 状态 为 开 和 一 个 对 应 于 所 有 检测 器 单元 关闭 的 附加 状态 )。 当 且 仅 当 检 
测 需 单 元 中 的 一 个 开启 时 ， 池 化 单元 打开 。 所 有 单元 的 状态 关闭 时 ， 能 量 被 分 配 为 
零 。 我 们 可 以 认为 这 是 在 用 包含 n + 1 个 状态 的 单个 变量 来 描述 模型 ， 或 者 等 价 地 
具有 n 十 1 个 变量 的 模型 ， 除了 nn 十 1 个 联合 分 配 的 变量 之 外 的 能 量 赋 为 co。 

虽然 高 效 的 概率 最 大 池 化 确实 能 强迫 检测 器 单元 互 斥 ， 这 在 某 些 情景 下 可 能 是 
有 用 的 正则 化 约束 而 在 其 他 情景 下 是 对 模型 容量 有 害 的 限制 。 它 也 不 支持 重 羡 池 化 
区 域 。 从 前 馈 卷 积 网 络 获得 最 佳 性 能 通常 需要 重 闪 的 池 化 区 域 ， 因 此 这 种 约束 可 能 
大 大 降低 了 卷 积 玻 尔 兹 曼 机 的 性 能 。 

Lee et al. (2009) 证 明 概 率 最 大 池 化 可 以 用 于 构建 卷 积 深度 玻 尔 兹 曼 机 3。 该 模 
型 能 够 执行 诸如 填补 输入 缺失 部 分 的 操作 。 虽 然 这 种 模型 在 理论 上 有 吸引 力 ， 让 它 
在 实践 中 工作 是 具有 挑战 性 的 ， 作 为 分 类 器 通常 不 如 通过 监督 训练 的 传统 卷 积 网 络 。 

许多 卷 积 模型 对 于 许多 不 同 空间 大 小 的 输入 同样 有 效 。 对 于 玻 尔 效 曼 机 ， 由 于 
各 种 原因 很 难 改变 输入 尺寸 。 配 分 函数 随 着 输入 大 小 的 改变 而 改变 。 此 外 , 许多 卷 积 
网 络 按 与 输入 大 小 成 比例 地 缩放 池 化 区 域 来 实现 尺寸 不 变性 ,， 但 缩放 玻 尔 效 曼 机 池 
化 区 域 是 不 优雅 的 。 传 统 的 卷 积 神经 网 络 可 以 使 用 固定 数量 的 池 化 单元 并 且 动 态 地 
增加 它们 池 化 区 域 的 大 小 ， 以 此 获得 可 变 大 小 输入 的 固定 尺寸 的 表示 。 对 于 玻 尔 效 
曼 机 ， 大 型 池 化 区 域 的 计算 成 本 比 朴 素 方法 高 很 多 。Lee et al. (2009) 的 方法 使 得 每 
个 检测 器 单元 在 相同 的 池 化 区 域 中 互 斥 ， 解 决 了 计算 问题 ， 但 仍然 不 允许 大 小 可 变 
的 池 化 区 域 。 例 如 ， 假 设 我 们 在 学 习 边 缘 检测 器 时 ， 检 测 器 单元 上 具有 2 x 2 的 概率 
最 大 池 化 。 这 强制 约束 在 每 个 2 x 2 的 区 域 中 只 能 出 现 这 些 边 中 的 一 条 。 如 果 我 们 随 
后 在 每 个 方向 上 将 输入 图 像 的 大 小 增加 50%， 则 期 望 边缘 的 数量 会 相应 地 增加 。 相 
反 ， 如 果 我 们 在 每 个 方向 上 将 池 化 区 域 的 大 小 增加 50% 到 3 x 3， 则 互 斥 性 约束 现 
在 指定 这 些 边 中 的 每 一 个 在 x 3 区 域 中 仅 可 以 出 现 一 次 。 当 我 们 以 这 种 方式 增长 模 
型 的 输入 图 像 时 ， 模 型 会 生成 密度 较 小 的 边 。 当 然 ， 这 些 问题 只 有 在 模型 必须 使 用 
可 变数 量 的 池 化 ， 以 便 产 出 固定 大 小 的 输出 向 量 时 才 会 出 现 。 只 要 模型 的 输出 是 可 
以 与 输入 图 像 成 比例 缩放 的 特征 图 ， 使 用 概率 最 大 池 化 的 模型 仍然 可 以 接受 可 变 大 
小 的 输入 图 像 。 

图 像 边界 处 的 像素 也 带 来 一 些 困 难 ， 由 于 玻 尔 效 曼 机 中 的 连接 是 对 称 的 事实 而 
加 剧 。 如 果 我 们 不 隐 式 地 补 零 输 入 ， 则 将 会 导致 比 可 见 单元 更 少 的 隐藏 单元 ， 并 且 
图 像 边 界 处 的 可 见 单元 将 不 能 被 良好 地 建 模 ， 因 为 它们 位 于 较 少 隐藏 单元 的 接受 场 


?该 论文 将 模型 描述 为 “深度 信念 网 络 ”， 但 因为 它 可 以 被 描述 为 纯 无 向 模型 ( 具有 易 处 理 逐 层 均匀 场 不 动 点 更 新 )， 
所 以 它 最 适合 深度 玻 尔 效 曼 机 的 定义 。 
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中 。 然 而 ， 如 果 我 们 隐 式 地 补 零 输入 ， 则 边界 处 的 隐藏 单元 将 由 较 少 的 输入 像素 驱 
动 ， 并 且 可 能 在 需要 时 无 法 激活 。 


20.7 ”用 于 结构 化 或 序列 输出 的 玻 尔 兹 曼 机 


在 结构 化 输出 场景 中 ,我们 希望 训练 可 以 从 一 些 输入 z 映射 到 一 些 输出 y 的 模 
型 ，y 的 不 同 条 目 彼 此 相关 ， 并 且 必 须 遵 守 一 些 约束 。 例 如 ， 在 语音 合成 任务 中 ，yy 
是 波形 ， 并 且 整 个 波形 听 起 来 必须 像 连 贯 的 发 音 。 

表示 y 中 的 条 目 之 间 关 系 的 自然 方式 是 使 用 概率 分 布 p(y | 由。 扩展 到 建 模 条 
件 分 布 的 玻 尔 效 曼 机 可 以 支持 这 种 概率 模型 。 

使 用 玻 尔 兹 曼 机 条 件 建 模 的 相同 工具 不 仅 可 以 用 于 结构 化 输出 任务 ， 还 可 以 用 
于 序列 建 模 ,在 后 一 种 情况 下 ,模型 必须 估计 变量 序列 上 的 概率 分 布 p(x, 22. x), 
而 不 仅仅 是 将 输入 z 映射 到 输出 y。 为 完成 这 个 任务 ， 条 件 玻 尔 兹 曼 机 可 以 表示 
p(X |x, ...,x—-)) 形式 的 因子 。 

视频 游戏 和 电影 工业 中 一 个 重要 序列 建 模 任务 是 建 模 用 于 泻 染 3-D 人 物 骨 架 关 
节 角 度 的 序列 。 这些 序 列 通常 通过 记录 角色 移动 的 运动 捕获 系统 收集 。 人 物 运 动 的 概 
率 模型 允许 生成 新 的 (之 前 没 见 过 的 ) 但 真实 的 动画 。 为 了 解决 这 个 序列 建 模 任务 ， 
Taylor et al. (2007) 针对 小 的 m 引入 了 条 件 RBM 建 模 p(x | ztrD , g6), 
该 模型 是 z(zi9) 上 的 RBM， 其 偏 置 参数 是 z 前 面 m 个 值 的 线性 函数 。 当 我 们 条 件 
于 zt 的 不 同 值 和 更 早 的 变量 时 ， 我 们 会 得 到 一 个 关于 x 的 新 RBM, RBM 关于 
x 的 权重 不 会 改变 , 但 是 条 件 于 不 同 的 过 去 值 , 我 们 可 以 改变 RBM 中 的 不 同 隐藏 单 
元 处 于 活动 状态 的 概率 。 通 过 激活 和 去 激活 隐藏 单元 的 不 同 子 集 ， 我 们 可 以 对 x 上 
诱导 的 概率 分 布 进行 大 的 改变 。 条 件 RBM 的 其 他 变 体 (Mnih et al., 2011) 和 使 用 
条 件 RBM 进行 序列 建 模 的 其 他 变 体 是 可 能 的 (Taylor and Hinton, 2009; Sutskever 
et al., 2009; Boulanger-Lewandowski et al., 2012)。 

另 一 个 序列 建 模 任务 是 对 构成 歌曲 音符 序列 的 分 布 进行 建 模 。Boulanger- 
Lewandowski et al. (2012) 引入 了 RNN-RBM 序列 模型 并 应 用 于 这 个 任务 。RNN- 
RBM 由 RNN (产生 用 于 每 个 时 间 步 的 RBM 参数 ) 组 成 ， 是 帧 序列 zt 的 生成 模 
型 。 与 之 前 只 有 RBM 的 偏 置 参数 会 在 一 个 时 间 步 到 下 一 个 发 生变 化 的 方法 不 同 ， 
RNN-RBM 使 用 RNN 来 产生 RBM 的 所 有 参数 (包括 权重 )。 为 了 训练 模型 ， 我 们 
需要 能 够 通过 RNN 反 向 传播 损失 函数 的 梯度 。 损 失 函数 不 直接 应 用 于 RNN 输出 。 
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相反 ， 它 应 用 于 RBM。 这 意味 着 我 们 必须 使 用 对 比 散 度 或 相关 算法 关于 RBM 参数 
进行 近似 的 微分 。 然 后 才 可 以 使 用 通常 的 通过 时 间 反 向 传播 算法 通过 RNN 反 向 传 
播 该 近似 梯度 。 


20.8 ”其 他 玻 尔 兹 曼 机 


玻 尔 效 曼 机 的 许多 其 他 变种 是 可 能 的 。 

玻 尔 效 曼 机 可 以 用 不 同 的 训练 准则 扩展 。 我 们 专注 于 训练 为 大 臻 最 大 化 生成 标 
HE log p(v) 的 玻 尔 效 曼 机 。 相 反 ， 旨 在 最 大 化 log p(y | v) 来 训练 判别 的 RBM 也 是 
有 可 能 的 (Larochelle and Bengio, 2008b)。 当 使 用 生成 性 和 判别 性 标准 的 线性 组 合 
时 ， 该 方法 通常 表现 最 好 。 不 幸 的 是 ， 至 少 使 用 现 有 的 方法 来 看 ，RBM 似乎 并 不 
如 MLP 那样 的 监督 学 习 顺 强大。 

在 实践 中 使 用 的 大 多 数 玻 尔 效 曼 机 在 其 能 量 函 数 中 仅 具 有 二 阶 相 互 作用 ， 意 味 
着 它们 的 能 量 函 数 是 许多 项 的 和 ， 并 且 每 个 单独 项 仅 包括 两 个 随机 变量 之 间 的 乘积 。 
这 种 项 的 一 个 例子 是 v,Wi gh. 我 们 还 可 以 训练 高 阶 玻 尔 效 曼 机 (Sejnowski, 1987) 
， 其 中 能 量 函 数 项 涉及 许多 变量 的 乘积 。 隐 藏 单元 和 两 个 不 同 图 像 之 间 的 三 向 交互 
可 以 建 模 从 一 个 视频 帧 到 下 一 个 帧 的 空间 变换 (Memisevic and Hinton, 2007, 2010). 
通过 one-hot 类 别 变量 的 乘法 可 以 根据 存在 哪个 类 来 改变 可 见 单元 和 隐藏 单元 之 间 的 
关系 (Nair and Hinton，2009)。 使 用 高 阶 交 互 的 一 个 最 近 的 示例 是 具有 两 组 隐藏 单 
元 的 玻 尔 效 曼 机 ， 一 组 同时 与 可 见 单元 v 和 类 别 标 签 y 交互 ， 另 一 组 仅 与 输入 值 v 
交互 (Luo et al., 2011)。 这 可 以 被 解释 为 鼓励 一 些 隐藏 单元 学 习 使 用 与 类 相关 的 特 
征 来 建 模 输入 ， 而 且 还 学 习 额 外 的 隐藏 单元 (不 需要 根据 样本 类 别 ， 学 习 逼 真 v FE 
本 所 需 的 繁琐 细节 )。 高 阶 交互 的 另 一 个 用 途 是 选 通 一 些 特征 。Sohn et al. (2013) 介 
绍 了 一 个 带 有 三 阶 交互 的 玻 尔 效 曼 机 ， 以 及 与 每 个 可 见 单元 相关 的 二 进 制 掩 码 变量 。 
当 这 些 掩 码 变 量 设置 为 零 时 ， 它 们 消除 可 见 单 元 对 隐藏 单元 的 影响 。 这 允许 将 与 分 
类 问题 不 相关 的 可 见 单 元 从 估计 类 别 的 推 凯 路 径 中 移 除 。 

更 一 般 地 说 ， 玻 尔 兹 曼 机 框架 是 一 个 丰富 的 模型 空间 ， 人 允许 比 迄 今 为 止 已 经 探 
索 的 更 多 的 模型 结构 。 开 发 新 形式 的 玻 尔 兹 曼 机 相 比 于 开发 新 的 神经 网 络 层 需要 更 
多 细心 和 创造 力 ， 因 为 它 通常 很 难 找到 一 个 能 保持 玻 尔 兹 曼 机 所 需 的 所 有 不 同 条 件 
分 布 的 可 解 性 的 能 量 函 数 。 尽 管 这 需要 努力 ， 该 领域 仍 对 创新 开放 。 
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20.9 ”通过 随机 操作 的 反 向 传播 


传统 的 神经 网 络 对 一 些 输入 变量 z 施加 确定 性 变换 。 当 开发 生成 模型 时 ， 我 们 
经 常 希 望 扩展 神经 网 络 以 实现 ce 的 随机 变换 。 这 样 做 的 一 个 直接 方法 是 使 用 额外 输 
入 z (从 一 些 简单 的 概率 分 布 采样 得 到 ， 如 均匀 或 高 斯 分 布 ) 来 增强 神经 网 络 。 神 经 
网 络 在 内 部 仍 可 以 继续 执行 确定 性 计算 ,但 是 函数 (oe, 2) 对 于 不 能 访问 z 的 观察 
来 说 将 是 随机 的 。 假 设 是 连续 可 微 的 ， 我 们 可 以 像 往 常 一 样 使 用 反 向 传播 计算 训 
练 所 需 的 梯度 。 

作为 示例 ， 让 我 们 考虑 从 均值 p 和 方差 o? 的 高 斯 分 布 中 采样 y 的 操作 : 








y~ N(u, o°): (20.54) 


因为 y 的 单个 样本 不 是 由 函数 产生 的 ， 而 是 由 一 个 采样 过 程 产 生 ， 它 的 输出 会 随 我 
们 的 每 次 查询 变化 ， 所 以 取 y 相对 于 其 分 布 的 参数 u 和 o? 的 导数 似乎 是 违反 直觉 
的 。 然 而 ,我 们 可 以 将 采样 过 程 重 写 ， 对 基本 随机 变量 z ~N(z;0,1) 进行 转换 以 从 
期 望 的 分 布 获得 样本 : 





y=y+tez. (20.55) 


现在 我 们 将 其 视 为 具有 额外 输入 z 的 确定 性 操作 ， 可 以 通过 采样 操作 来 反 向 传 
播 。 至 关 重 要 的 是 ， 人 额外 输入 是 一 个 随机 变量 ， 其 分 布 不 是 任何 我 们 想 对 其 计算 导 
数 的 变量 的 函数 。 如 果 我 们 可 以 用 相同 的 z 值 再 次 重复 采样 操作 ， 结 果 会 告诉 我 们 
/或 ca 的 微小 变化 将 会 如 何 改变 输出 。 

能 够 通过 该 采样 操作 反 向 传播 允许 我 们 将 其 并 人 更 大 的 图 中 。 我 们 可 以 在 采样 
分 布 的 输出 之 上 构建 图 元 素 。 例 如 ， 我 们 可 以 计算 一 些 损失 函数 .J(y) 的 导数 。 我 们 
还 可 以 构建 这 样 的 图 元 素 ， 其 输出 是 采样 操作 的 输入 或 参数 。 例 如 ， 我 们 可 以 通过 
二 f(z;0) Alo = g(z;9) 构建 更 大 的 图 。 在 这 个 增强 图 中 ,我 们 可 以 通过 这 些 函 数 
的 反 向 传播 导出 VeJ(y)。 

在 该 高 斯 采样 示例 中 使 用 的 原理 能 更 广泛 地 应 用 。 我 们 可 以 将 任何 形 为 p(y; 9) 
或 p(y | x0) 的 概率 分 布 表 示 为 p(y |w), RF w 是 同时 包含 参数 O 和 输入 z 的 变 
tt (如 果 适 用 的 话 )。 给 定 从 分 布 p(y | w) 采样 的 值 y HP w 可 以 是 其 他 变量 的 函 
数 )， 我 们 可 以 将 











y ~ vy |w) (20.56) 
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重 写 为 
y= f(a), (20.57) 


其 中 z 是 随机 性 的 来 源 。 只 要 三 是 几乎 处 处 连续 可 微 的 ， 我 们 就 可 以 使 用 传统 
工具 (例如 应 用 于 f 的 反 向 传播 算法 ) 计算 y 相对 于 w 的 导数 。 至 关 重 要 的 是 ， 
w 不 能 是 z 的 函数 ， 且 z 不 能 是 w 的 函数 。 这 种 技术 通常 被 称 为 重 参 数 化 技巧 
(reparametrization trick )、 随 机 反 向 传播 (stochastic back-propagation) 或 扰动 分 析 
(perturbation analysis), 

BOR f 是 连续 可 微 的 ， 当 然 需 要 y 是 连续 的 。 如 果 我 们 希望 通过 产生 离散 值 
样本 的 采样 过 程 进行 反 向 传播 ， 则 可 以 使 用 强化 学 习 算 法 (如 REINFORCE 算法 
(Williams, 1992) 的 变 体 ) 来 估计 w 上 的 梯度 ， 这 将 在 第 20.9.1 节 中 讨论 。 

在 神经 网 络 应 用 中 , 我 们 通常 选择 从 一 些 简单 的 分 布 中 采样 z， 如 单位 均匀 分 布 
或 单位 高 斯 分 布 ， 并 通过 网 络 的 确定 性 部 分 重 塑 其 输入 来 实现 更 复杂 的 分 布 。 

通过 随机 操作 扩展 梯度 或 优化 的 想法 可 追溯 到 二 十 世纪 中 叶 (Price, 1958; 
Bonnet，1964) ， 并 且 首 先 在 强化 学 习 (Williams, 1992) 的 情景 下 用 于 机 器 学 习 。 
最 近 ， 它 已 被 应 用 于 变 分 近似 (Opper and Archambeau, 2009) 和 随机 生成 神经 网 
络 (Bengio et al., 2013b; Kingma, 2013; Kingma and Welling, 2014b,a; Rezende et al., 
2014; Goodfellow et al., 2014c)。 许 多 网 络 ， 如 去 噪 自 编码 器 或 使 用 Dropout 的 正则 
化 网 络 ， 也 被 自然 地 设计 为 将 噪声 作为 输入 ， 而 不 需要 任何 特殊 的 重 参数 化 就 能 
噪声 独立 于 模型 。 








20.9.1 ”通过 离散 随机 操作 的 反 向 传播 


当 模型 发 射 离散 变量 y 时 ， 重 参数 化 技巧 不 再 适用 。 假 设 模型 采用 输入 z 和 参 
数 6， 两 者 都 封装 在 向 量 w F, 并且 将 它们 与 随机 噪声 z 组 合 以 产生 y: 





y= flaw). (20.58) 


因为 y 是 离散 的 ，f 必须 是 一 个 阶 路 函数 。 阶 路 函数 的 导数 在 任何 点 都 是 没 用 的 。 
在 每 个 阶 路 边界， 导数 是 未 定义 的 ， 但 这 是 一 个 小 问题 。 大 问题 是 导数 在 阶 路 边界 
之 间 的 区 域 几 乎 处 处 为 零 。 因 此 ， 任 何 代价 函数 7(y) 的 导数 无 法 给 出 如 何 更 新 模型 
参数 9 的 任何 信息 。 
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REINFORCE 算法 (REward Increment = nonnegative Factor x Offset Rein- 
forcement x Characteristic Eligibility ) 提供 了 定义 一 系列 简单 而 强大 解决 方案 的 框 
架 (Williams, 1992)。 其 核心 思想 是 ， 即 使 7(f(z;w)) 是 具有 无 用 导数 的 阶 跃 函数 ， 
期 望 代价 Ezp d (f(z) 通常 是 服从 梯度 下 降 的 光滑 函数 。 虽 然 当 y 是 高 维 (或 
者 是 许多 离散 随机 决策 组 合 的 结果 ) 时 ， 该 期 望 通常 是 难 解 的 ， 但 我 们 可 以 使 用 蒙 
特 卡 罗平 均 进 行 无 偏 估 计 。 梯度 的 随机 估计 可 以 与 SGD 或 其 他 基于 随机 梯度 的 优化 
技术 一 起 使 用 。 


通过 简单 地 微分 期 望 成 本 ,我们 可 以 推导 出 REINFORCE 最 简单 的 版 本 : 












































EJ (y)] = > TWP(Y, (20.59) 
OE[TW] _ p(y) 

pp = 2 Jy) ae (20.60) 

= 5 Jop LY (20.61) 


1 log p(y) 
= Ty . 
m (a) Ow 
yO ~p(y) t= 1 


(20.62) 


式 (20.60) 依赖 于 J 不 直接 引用 w 的 假设 。 放 松 这 个 假设 来 扩展 该 方法 是 简单 的 。 
式 (20.61) 利用 对 数 的 导数 规则 ， 呈 中 I Ont) I (20.62) 给 出 了 该 梯度 的 无 
偏 蒙特 卡 罗 佑 计 。 

在 本 节 中 我 们 写 的 p(y)， 可 以 等 价 地 写成 p(y| z)。 这 是 因为 p(y) 由 w 参数 化 ， 
并 且 如 果 r 存在，w 包含 8 和 z 两 者 。 

简单 REINFORCE 估计 的 一 个 问题 是 其 具有 非常 高 的 方差 ， 需 要 采 y 的 许多 
样本 才能 获得 对 梯度 的 良好 估计， 或 者 等 价 地 ， 如 果 仅 绘制 一 个 样本 ，SGD 将 收 
敛 得 非常 缓慢 并 将 需要 较 小 的 学 习 率 。 通 过 使 用 方差 减 小 (variance reduction ) 方 
法 (Wilson, 1984; L’Ecuyer, 1994) ， 可 以 地 减少 该 估计 的 方差 。 想 法 是 修改 估计 量 ， 
使 其 预期 值 保持 不 变 ， 但 方差 减 小 。 在 REINFORCE 的 情况 下 提出 的 方差 减 小 方 
法 ,涉及 计算 用 于 偏 移 J(y) 的 基线 (baseline)。 注 意 ,不 依赖 于 y 的 任何 偏 移 b(w) 
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都 不 会 改变 估计 梯度 的 期 望 ， 因 为 


























Een TERM = YEW (20.63) 
一 Oy) (20.64) 
= 2 2 Pia) = Ža =, (20.65) 
Ep | (J (y) — b( p= ) Epy) MW EY — b(w) Epo) ae 
J 
(20.66) 
= Epo) Te (20.67) 








此 外 ,我 们 可 以 通过 计算 (T(y) — b(w)) M8? SEF p(y) 的 方差 ,并 关于 blw) 最 小 
化 获得 最 优 Wew)。 我 们 发 现 这 个 最 佳 基线 blw) 对 于 向 量 w 的 每 个 元 素 w; 是 不 同 
的 : 





Olo 2 
Epo) [Jage 








b*(w); = 20.68 
Oo] ai 
相对 于 wi 的 梯度 估计 则 变 为 
al 
(J(y) — b(w);) sy ) (20.69) 





其 中 blw) 估计 上 述 b (w) 获得 估计 5 通常 需要 将 额外 输出 添加 到 神经 网 络 , 并 训 
练 新 输出 对 w 的 每 个 元 素 舍 计 Epo [I (y) EZ] 和 Epo | PGE] 这 些 额外 的 输 
HETA E HIII, IETA w, DA p( RRE y B, 分别 用 Jy) ee 
和 rW 作 目 标 。 然 后 可 以 将 这 些 估计 代入 式 (20.68) 就 能 恢复 估计 bo Mnih and 
Gregor (2014) 倾向 于 使 用 通过 目标 J(y) 训练 的 单个 共享 输出 跨越 w 的 所 有 元 素 
i), FEH b(w) = Epo [J(y)] 作为 基线 。 


在 强化 学 习 背 景 下 引入 的 方差 减 小 方法 (Sutton et al., 2000; Weaver and Tao, 
2001), Dayan (1990) 推广 了 二 值 奖励 的 前 期 工作 。 可 以 参考 Bengio et al. (2013b)、 
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Mnih and Gregor (2014), Ba et al. (2014), Mnih et al. (2014) 或 Xu et al. (2015) 中 
在 深度 学 习 的 背景 下 使 用 减少 方差 的 REINFORCE 算法 的 现代 例子 。 除 了 使 用 与 输 
人 相关 的 基线 b(w), Mnih and Gregor (2014) 发 现 可 以 在 训练 期 间 调 整 (J(y) 一 5(w)) 
的 尺度 即 除 以 训练 期 间 的 移动 平均 估计 的 标准 差 )， 即 作为 一 种 适应 性 学 习 率 ， 可 
以 抵消 训练 过 程 中 该 量 大 小 发 生 的 重要 变化 的 影响 。Mnih and Gregor (2014) 称 之 
为 启发 式 方差 归 一 化 (variance normalization)。 

基于 REINFORCE 的 估计 器 可 以 被 理解 为 将 y 的 选择 与 7(y) 的 对 应 值 相关 联 
来 估计 梯度 。 如 果 在 当前 参数 化 下 不 太 可 能 出 现 y 的 良好 值 ， 则 可 能 需要 很 长 时 间 
来 偶然 获得 它 ， 并 且 获 得 所 需 信号 的 配置 应 当 被 加 强 。 








20.10 有 向 生 成 网 络 


如 第 十 六 章 所 讨论 的 , 有 向 图 模型 构成 了 一 类 突出 的 图 模型 。 虽然 有 向 图 模型 在 
更 大 的 机 顺 学 习 社 群 中 非常 流行 ， 但 在 较 小 的 深度 学 习 社 群 中 ， 大 约 直 到 2013 FE 
们 都 掩盖 在 无 向 模型 (如 RBM) 的 光彩 之 下 。 

在 本 市 中 ， 我 们 回顾 一 些 传统 上 与 深度 学 习 社 群 相关 的 标准 有 向 图 模型 。 

我 们 已 经 描述 过 部 分 有 向 的 模型 一 一 深度 信念 网 络 。 我 们 还 描述 过 可 以 被 认为 
是 浅 度 有 回 生 成 模型 的 稀 玻 编码 模型 。 尽 管 在 样本 生成 和 密度 估计 方面 表现 不 佳 ， 
在 深度 学 习 的 背景 下 它们 通常 被 用 作 特征 学 习 避 。 我 们 接 下 来 描述 多 种 深度 完全 有 
向 的 模型 。 





20.10.1 sigmoid 信念 网 络 


sigmoid 信念 网 络 (Neal, 1990) 是 一 种 具有 特定 条 件 概 率 分 布 的 有 向 图 模型 的 简 
单 形 式 。 一 般 来 说 ,我 们 可 以 将 sigmoid 信念 网 络 视 为 具有 二 值 向 量 的 状态 s， 其 中 
状态 的 每 个 元 素 都 受 其 祖先 影响 : 
plsi) = {5 W348; + s) : (20.70) 
j<i 


sigmoid 信念 网 络 最 常见 的 结构 是 被 分 为 许多 层 的 结构 ， 其 中 原始 采样 通过 一 系 
列 多 个 隐藏 层 进行 ， 然 后 最 终生 成 可 见 层 。 这 种 结构 与 深度 信念 网 络 非常 相似 ， 但 
它们 在 采样 过 程 开 始 时 的 单元 彼此 独立 ， 而 不 是 从 受 限 玻 尔 兹 曼 机 采样 。 这 种 结构 
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由 于 各 种 原因 而 令 人 感 兴趣 。 一 个 原因 是 该 结构 是 可 见 单元 上 概率 分 布 的 通用 近似 ， 
即 在 足够 深 的 情况 下 ， 可 以 任意 良好 地 近似 二 值 变 量 的 任何 概率 分 布 ( 即使 各 个 层 
的 宽度 受 限 于 可 见 层 的 维度 ) (Sutskever and Hinton, 2008)。 

虽然 生成 可 见 单 元 的 样本 在 sigmoid 信念 网 络 中 是 非常 高 效 的 ， 但 是 其 他 大 多 
数 操作 不 是 很 高 效 。 给 定 可 见 单元 ， 对 隐藏 单元 的 推断 是 难 解 的 。 因 为 变 分 下 界 涉 
及 对 包含 整个 层 的 团 求 期 望 ， 均 匀 场 推 关 也 是 难以 处 理 的。 这 个 问题 一 直 困 难 到 足 
以 限制 有 向 离散 网 络 的 普及 。 

在 sigmoid 信念 网 络 中 执行 推断 的 一 种 方法 是 构造 专用 于 sigmoid 信念 网 络 的 
不 同 下 界 (Saul et al., 1996)。 这 种 方法 只 适用 于 非常 小 的 网 络 。 另 一 种 方法 是 使 用 学 
成 推断 机 制 ， 如 第 19.5 节 中 描述 的 。Helmholtz 机 (Dayan et al., 1995; Dayan and 
Hinton, 1996) 结合 了 一 个 sigmoid 信念 网 络 与 一 个 预测 隐藏 单元 上 均匀 场 分 布 参数 
的 推断 网 络 。sigmoid 信念 网 络 的 现代 方法 (Gregor et al., 2014; Mnih and Gregor, 
2014) 仍然 使 用 这 种 推断 网 络 的 方法 。 因 为 潜 变 量 的 离散 本 质 ， 这 些 技术 仍然 是 困 
难 的 。 人 们 不 能 简单 地 通过 推断 网 络 的 输出 反 向 传播 ， 而 必须 使 用 相对 不 可 靠 的 机 
制 即 通过 离散 采样 过 程 进 行 反 向 传播 ( 如 第 20.9.1 节 所 述 )。 最 近 基 于 重要 采样 、 重 
JNA EY HEN (Bornschein and Bengio, 2015) 或 双向 Helmholtz 机 (Bornschein et al., 
2015) 的 方法 使 得 我 们 可 以 快速 训练 sigmoid 信念 网 络 ， 并 在 基准 任务 上 达到 最 好 的 
表现 。 

sigmoid 信念 网 络 的 一 种 特殊 情况 是 没有 潜 变 量 的 情况 。 在 这 种 情况 下 学 习 是 高 
效 的 ， 因 为 没有 必要 将 潜 变 量 边缘 化 到 似 然 之 外 。 一 系列 称 为 自 回归 网 络 的 模型 将 
这 个 完全 可 见 的 信念 网 络 泛 化 到 其 他 类 型 的 变量 〈 除 二 值 变 量 ) 和 其 他 结构 〈 除 对 
数 线性 关系 ) 的 条 件 分 布 。 自 回归 网 络 将 在 第 20.10.7 节 中 描述 。 




















20.10.2 ”可 微 生 成 器 网 络 


许多 生成 模型 基于 使 用 可 微 生成 器 网 络 (generator network ) 的 想法 。 这 种 模 
型 使 用 可 微 函数 g(z; 00) 将 潜 变 量 z 的 样本 变换 为 样本 x 或 样本 x 上 的 分 布 ， 可 
微 函 数 通常 可 以 由 神经 网 络 表 示 。 这 类 模型 包括 将 生成 器 网 络 与 推断 网 络 配 对 的 变 
分 自 编码 器 、 将 生成 器 网 络 与 判别 器 网 络 配对 的 生成 式 对 抗 网 络 , 以 及 孤立 地 训练 生 
成 器 网 络 的 技术 。 

生成 器 网 络 本 质 上 仅 是 用 于 生成 样本 的 参数 化 计算 过 程 ， 其 中 的 体系 结构 提供 
了 从 中 采样 的 可 能 分 布 族 以 及 选择 这 些 族 内 分 布 的 参数 。 


ww ai bbt.com DOOOO00 


dou.bz/350DPo0_ 


592 第 二 十 章 深度 生成 模型 


作为 示例 ,从 具有 均值 u 和 协 方差 D 的 正 态 分 布 绘制 样本 的 标准 过 程 是 将 来 自 
零 均 值 和 单位 协 方差 的 正 态 分 布 的 样本 z 馈送 到 非常 简单 的 生成 器 网 络 中 。 这 个 生 
成 器 网 络 只 包含 一 个 仿 射 层 : 





x= g(z) = u + Lz, (20.71) 
Hp LH E A Cholesky 分 解 给 出 。 

伪 随 机 数 发 生 器 也 可 以 使 用 简单 分 布 的 非 线 性 变换 。 例 如 ， 逆 变换 采样 (inverse 
transform sampling)(Devroye, 2013) 从 U(0,1) 中 采 一 个 标量 z, 并 且 对 标量 z 应 用 
非 线 性 变换 。 在 这 种 情况 下 ，g(z) 由 累积 分 布 函 数 F(z) = f°. p(v)du 的 反 函 数 给 
出 。 如 果 我 们 能 够 指定 p(x), TE zx 上 积分 ， 并 取 所 得 函数 的 反 函 数 ， 我 们 不 用 通过 
机 器 学 习 就 能 从 p(x) 进行 采样 。 

为 了 从 更 复杂 的 分 布 (难以 直接 指定 、 难 以 积分 或 难以 求 所 得 积分 的 反 芳 数 ) 
中 生成 样本 ， 我 们 使 用 前 馈 网 络 来 表示 非 线性 函数 9 的 参数 族 ， 并 使 用 训练 数据 
来 推断 参数 以 选择 所 期 望 的 函数 。 

我 们 可 以 认为 9 提供 了 变量 的 非 线性 变化 ， 将 z 上 的 分 布 变换 成 x 上 想 要 的 分 
布 。 

回顾 式 (3.47) ， 对 于 可 求 反 函 数 的 、 可 微 的 、 连 续 的 g, 








p:( = pa(g(2))| det ($2). (20.72) 
这 隐 含 地 对 x 施加 概率 分 布 : 
_ ps(g7 (0) 
Dy (x) = idet(22)| (20.73) 


当然 ， 取 决 于 g 的 选择 ， 这 个 公式 可 能 难以 评估 ， 因 此 我 们 经 常 需要 使 用 间接 学 习 
g 的 方法 ， 而 不 是 直接 尝试 最 大 化 logp(z)。 

在 某 些 情况 下 ， 我们 使 用 g 来 定义 z 上 的 条 件 分 布 ， 而 不 是 使 用 9 直接 提供 x 
的 样本 。 例 如 , 我 们 可 以 使 用 一 个 生成 器 网 络 ， 其 最 后 一 层 由 sigmoid 输出 组 成 ， 可 
以 提供 Bernoulli 分 布 的 平均 参数 : 




















p(x: = 1 | 2z) = g(2)i. (20.74) 
在 这 种 情况 下 ， 我 们 使 用 g 来 定义 p(x | z) 时 ， 我 们 通过 边缘 化 z 来 对 z 施加 分 布 : 
p(x) = Ep(z | z). (20.75) 
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两 种 方法 都 定义 了 一 个 分 布 pr(zj， 并 人 允许 我 们 使 用 第 20.9 节 中 的 重 参数 化 技 
巧 来 训练 py 的 各 种 评估 准则 。 

表示 生成 器 网 络 的 两 种 不 同方 法 (发 出 条 件 分 布 的 参数 相对 直接 发 射 样品 ) 具 
有 互补 的 优 缺 点 。 当 生成 器 网 络 在 x 上 定义 条 件 分 布 时 ， 它 不 但 能 生成 连续 数据 ， 
也 能 生成 离散 数据 。 当 生成 器 网 络 直接 提供 采样 时 ， 它 只 能 产生 连续 的 数据 (我 们 
可 以 在 前 向 传播 中 引入 离散 化 ， 但 这 样 做 意味 着 模型 不 再 能 够 使 用 反 向 传播 进行 训 
练 )。 直 接 采 样 的 优点 是 ,我们 不 再 被 迫使 用 条 件 分 布 ( 可 以 容易 地 写 出 来 并 由 人 类 
设计 者 进行 代数 操作 的 形式 )。 

基于 可 微 生 成 器 网 络 的 方法 是 由 分 类 可 微 前 馈 网 络 中 梯度 下 降 的 成 功 应 用 而 推 
动 的 。 在 监督 学 习 的 背景 中 ， 基 于 梯度 训练 学 习 的 深度 前 馈 网 络 在 给 定 足 够 的 隐藏 
单元 和 足够 的 训练 数据 的 情况 下 ， 在 实践 中 似乎 能 保证 成 功 。 这 个 同样 的 方案 能 成 
功 转移 到 生成 式 建 模 上 吗 ? 

生成 式 建 模 似乎 比分 类 或 回归 更 困难 ， 因 为 学 习 过 程 需要 优化 难以 处 理 的 准则 。 
在 可 微 生 成 器 网 络 的 情况 中 ， 准 则 是 难以 处 理 的 ， 因 为 数据 不 指定 生成 器 网 络 的 输 
入 z 和 输出 z。 在 监督 学 习 的 情况 下 ， 输 入 z 和 输出 y 同时 给 出 ， 并 且 优化 过 程 只 
需 学 习 如 何 产生 指定 的 映射 。 在 生成 建 模 的 情况 下 ， 学 习 过 程 需要 确定 如 何以 有 用 
的 方式 排 布 z 空间， 以 及 额外 的 如 何 从 z 映射 到 z。 

Dosovitskiy et al. (2015) 研究 了 一 个 简化 问题 ， 其 中 z 和 z 之 间 的 对 应 关系 已 
经 给 出 。 具 体 来 说 ， 训 练 数据 是 计算 机 泻 染 的 椅子 图 。 潜 变量 z 是 泻 染 引擎 的 参数 ， 
描述 了 椅子 模型 的 选择 、 椅 子 的 位 置 以 及 影响 图 像 泻 染 的 其 他 配置 细节 。 使 用 这 种 
合成 的 生成 数据 ， 卷 积 网 络 能 够 学 习 将 图 像 内 容 的 描述 z 映射 到 泻 染 图 像 的 近似 zx。 
这 表明 当 现 代 可 微 生 成 器 网 络 具 有 足够 的 模型 容量 时 ， 足 以 成 为 良好 的 生成 模型 ， 
并 且 现 代 优化 算法 具有 拟 合 它们 的 能 力 。 困 难 在 于 当 每 个 z 的 z 的 值 不 是 固定 的 且 
在 每 次 训练 前 是 未 知 时 ， 如 何 训练 生成 器 网 络 。 

在 接 下 来 的 章节 中 ,我 们 讨论 仅 给 出 x 的 训练 样本 ， 训 练 可 微 生 成 器 网 络 的 几 
种 方法 。 














20.10.3 ” 变 分 自 编码 器 


变 分 自 编码 器 (variational auto-encoder, VAE ) (Kingma, 2013; Rezende et al., 
2014) 是 一 个 使 用 学 好 的 近似 推断 的 有 向 模型 ， 可 以 纯粹 地 使 用 基于 梯度 的 方法 进行 
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训练。 

为 了 从 模型 生成 样本 ，VAE 首先 从 编码 分 布 psoaai( 中 采样 zo 然后 使 样本 通 
过 可 微 生 成 器 网 络 glz) RJE, MME pmoaa(@; 9(2)) = Pmoaei(@ | 2) 中 采样 z。 然 
而 在 训练 期 间 ， 近 似 推断 网 络 (或 编码 器 ale | 2) 用 于 获得 2, 而 pasaa(z | 2) W 
被 视 为 解码 器 网 络 。 

变 分 自 编码 器 背后 的 关键 思想 是 ， 它 们 可 以 通过 最 大 化 与 数据 点 = 相关 联 的 变 
分 下 界 Lla) 来 训练 




















L(q) = Dp log pmodal (%, zx) ae H(q(z | x)) (20.76) 
= Esa(as) 108 Pmodai (æ | 2) — Dri (q(z | £) || Pmodei(Z)) (20.77) 
< log pmodal (£). (20.78) 


在 式 (20.76) 中 ， 我 们 将 第 一 项 视 为 潜 变量 的 近似 后 验 下 可 见 和 隐藏 变量 的 联合 对 数 
似 然 性 (正如 EM 一 样 ， 不 同 的 是 我 们 使 用 近似 而 不 是 精确 后 验 )。 第 二 项 则 可 视 
FTW AA. Sq 被 选择 为 高 斯 分 布 ， 其 中 噪声 被 添加 到 预测 平均 值 时 ， 最 大 
化 该 炉 项 促使 该 噪声 标准 偏差 的 增加 。 更 一 般 地 ， 这 个 炳 项 敦 励 变 分 后 验 将 高 概率 
质量 置 于 可 能 已 经 产生 z 的 许多 z 值 上 ， 而 不 是 坊 缩 到 单个 估计 最 可 能 值 的 点 。 在 
式 (20.77) 中 ， 我 们 将 第 一 项 视 为 在 其 他 自 编 码 器 中 出 现 的 重 构 对 数 似 然 。 第 二 项 试 
图 使 近似 后 验 分 布 qlz | z) 和 模型 先 验 pmoael( 彼此 接近 。 

变 分 推 新 和 学 习 的 传统 方法 是 通过 优化 算法 推断 g， 通 常 是 迭代 不 动 点 方程 
(第 19.4 节 ), 这 些 方法 是 缓慢 的 , 并 且 通 常 需要 以 闭 解 形 式 计算 Ezg log pmoadel(z 四 )。 
变 分 自 编码 器 背后 的 主要 思想 是 训练 产生 4 参数 的 参数 编码 右 ( 有 了 时 也 称 为 推断 网 
络 或 识别 模型 )。 只 要 z 是 连续 变量 ,我 们 就 可 以 通过 从 gq(z | x) = gq(z; f(x;9)) 中 
采样 z 的 样本 反 向 传播 ， 以 获得 相对 于 9 的 梯度 。 学 习 则 仅 包 括 相对 于 编码 器 和 解 
码 带 的 参数 最 大 化 £L。L 中 的 所 有 期 望都 可 以 通过 蒙特 卡 罗 采 样 来 近似 。 

变 分 自 编码 噩 方法 是 优雅 的 ,理论 上 令 人 人 愉快 的 , 并 且 易 于 实现 。 它 也 获得 了 出 
色 的 结果 , 是 生成 式 建 模 中 的 最 先进 方法 之 一 。 它 的 主要 缺点 是 从 在 图 像 上 训练 的 变 
分 自 编 码 器 中 采样 的 样本 往往 有 些 模糊 。 这 种 现象 的 原因 尚 不 清楚 。 一 种 可 能 性 是 
模糊 性 是 最 大 似 然 的 加 有 效应 ， 因 为 我 们 需要 最 小 化 Dr(paata||pmoae)。 如 图 3.6 所 
示 , 这 意味 着 模型 将 为 训练 集中 出 现 的 点 分 配 高 的 概率 , 但 也 可 能 为 其 他 点 分 配 高 的 
概率 。 还 有 其 他 原因 可 以 导致 模糊 图 像 。 模型 选择 将 概率 质量 置 于 模糊 图 像 而 不 是 空 
间 的 其 他 部 分 的 部 分 原因 是 实际 使 用 的 变 分 自 编码 器 通常 在 pmoadel(z; g(2)) 使 用 高 
斯 分 布 。 最 大 化 这 种 分 布 似 然 性 的 下 界 与 训练 具有 均 方 误差 的 传统 自 编 码 如 类似， 
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这 意味 着 它 倾向 于 忽略 由 少量 像素 表示 的 特征 或 其 中 亮度 变化 微小 的 像素 。 如 Theis 
et al. (2015) 和 Huszar (2015) 指出 的 ， 该 问题 不 是 VAE 特有 的 ， 而 是 与 优化 对 数 
似 然 或 DkL (paatal|pmoaa) 的 生成 模型 共享 的 。 现 代 VAE 模型 男 一 个 麻烦 的 问题 是 ， 
它们 倾向 于 仅 使 用 z 维度 中 的 小 子 集 ， 就 像 编 码 器 不 能 够 将 具有 足够 局 部 方向 的 输 
人 空间 变换 到 边缘 分 布 与 分 解 前 匹配 的 空间 。 

VAE 框架 可 以 直接 扩展 到 大 范围 的 模型 架构 。 相 比 玻 尔 效 曼 机 ， 这 是 关键 的 优 
势 ， 因 为 玻 尔 兹 曼 机 需要 非常 仔细 地 设计 模型 来 保持 易 解 性 。VAE 可 以 与 广泛 的 可 
微 算 子 族 一 起 良好 工作 。 一 个 特别 复杂 的 VAE 是 深度 循环 注意 写 者 (DRAW) 模型 
(Gregor et al., 2015)。DRAW 使 用 一 个 循环 编码 器 和 循环 解码 器 并 结合 注意 力 机 制 。 
DRAW 模型 的 生成 过 程 包括 顺序 访问 不 同 的 小 图 像 块 并 绘制 这 些 点 处 的 像素 值 。 
我 们 还 可 以 通过 在 VAE 框架 内 使 用 循环 编码 器 和 解码 器 来 定义 变 分 RNN (Chung 
et al., 2015b) 来 扩展 VAE 以 生成 序列 。 从 传统 RNN 生成 样本 仅 在 输出 空间 涉及 
非 确定 性 操作 。 而 变 分 RNN 还 具有 由 VAE 潜 变 量 捕获 的 潜在 更 抽象 层 的 随机 变化 
性 。 



































VAE 框架 已 不 仅仅 扩展 到 传统 的 变 分 下 界 , 还 有 重要 加 权 自 编码 器 (importance- 
weighted autoencoder)(Burda et al., 2015) 的 目标 : 


k ¥ 
1 Pmodel (T, 2) 
Ly, (wy q) = DES n ZE) wq (zE log 7 
bass q(z|2) k q(z | x) 











(20.79) 








i=1 


这 个 新 的 目标 在 = 1 时 等 同 于 传统 的 下 界 C。 然 而 ， 它 也 可 以 被 解释 为 基于 提议 
分 布 gq(z| z) 中 z 的 重要 采样 而 形成 的 真实 log pmoaa(z) 估计 。 重要 加 权 自 编码 右 目 
标 也 是 log Ppmoaa (£) WTE, HME k 增加 而 变 得 更 紧 。 

变 分 自 编码 器 与 MP-DBM 和 其 他 涉及 通过 近似 推断 图 的 反 向 传播 方法 有 一 些 
有 趣 的 联系 (Goodfellow et al., 2013d; Stoyanov et al., 2011; Brakel et al., 2013). 
这 些 以 前 的 方法 需要 诸如 均匀 场 不 动 点 方程 的 推断 过 程 来 提供 计算 图 。 变 分 自 编码 
器 被 定义 为 任意 计算 图 ， 这 使 得 它 能 适用 于 更 广泛 的 概率 模型 族 ， 因 为 它 不 需要 将 
模型 的 选择 限制 到 具有 易 处 理 的 均匀 场 不 动 点 方程 的 那些 模型 。 变 分 自 编码 器 还 具 
有 增加 模型 对 数 似 然 边界 的 优点 ， 而 MP-DBM 和 相关 模型 的 准则 更 具 启 发 性 ， 并 
且 除 了 使 近似 推断 的 结果 准确 外 很 少 有 概率 的 解释 。 变 分 自 编码 器 的 一 个 缺点 是 它 
仅 针对 一 个 问题 学 习 推断 网 络 ， 即 给 定 z 推断 z。 较 老 的 方法 能 够 在 给 定 任 何其 他 
变量 子 集 的 情况 下 对 任何 变量 子 集 执行 近似 推断 ， 因 为 均匀 场 不 动 点 方程 指定 如 何 
在 所 有 这 些 不 同 问题 的 计算 图 之 间 共 享 参数 。 
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变 分 自 编码 器 的 一 个 非常 好 的 特性 是 ， 同 时 训练 参数 编码 器 与 生成 器 网 络 的 组 
合 迫 使 模型 学 习 一 个 编码 器 可 以 捕获 的 可 预测 的 坐标 系 。 这 使 得 它 成 为 一 个 优秀 
的 流 形 学 习 算 法 。 图 20.6 展 示 了 由 变 分 自 编码 器 学 到 的 低 维 流 形 的 例子 。 图 中 所 示 
的 情况 之 一 ， 算 法 发 现 了 存在 于 面部 图 像 中 两 个 独立 的 变化 因素 : 旋转 角 和 情绪 表 


达 。 





NNNNNANNwv---]-3-00 ooDDG 
NNNARNQ--o0-0-0-0 -0 OD OP Pp eS 
NEVA ADH HHO Do... oo Dp pPpEH 
NYHA AD DB DBD DX DODO PP PP HH 
NV SWDDADR QHD. oS SOP PP PL HH 
SNS SW DM BMBDMBMDMI AAP PPPPHKH 
~~ 4 SS 2 SQQNKDD DA PNPNPNPPLLE 
-~ SSS EQQnNKDD YN Wn Wr PD 
le 
— KKK ee D D o o A A w w w o w O OO 
-e A KK a a D O a a w U w a a o O OO 
KKK KK eT pO n w w L W w w g O OoOO 
— KKK a a a A E SS] 
aaa a A A A A R E EES] 
aA A A A a a AA A ACRA SA SAS] 
==KKRAKHAHHHHHHHHQAWAGOSO 
~—~FKRAAAHH HHH HHHHAWAWOGD 
~~FVW®AHAHH HHHHHHHAAWOYG 
~~SNANHHHHZHVVHHGESOHO 
SNANSLSLVC*@QV@ RP BRSVVVSGSGGH 


20.6: 由 变 分 自 编码 器 学 习 的 高 维 流 形 在 2 维 坐标 系 中 的 示例 (Kingma and Welling, 2014a). 
我 们 可 以 在 纸 上 直 接 绘 制 两 个 可 视 化 的 维度 ， 因 此 可 以 使 用 2 维 潜在 编码 训练 模型 来 了 解 模型 的 
工作 原理 ( 即使 我 们 认为 数据 流 形 的 固有 维度 要 高 得 多 )。 图 中 所 示 的 图 像 不 是 来 自 训 练 集 的 样本 ， 
而 是 仅仅 通过 改变 2 维 “ 编 码 ”z， 由 模型 p(x | z) 实际 生成 的 图 像 e ( 每 个 图 像 对 应 于 “编码 ”z 
位 于 2 维 均匀 网 格 的 不 同 选 择 )。( 左 ) Frey 人 脸 流 形 的 2 维 映 射 。 其 中 一 个 维度 (水平 ) 已 发 现 
大 致 对 应 于 面部 的 旋转 ， 而 另 一 个 〈 垂 直 ) 对 应 于 情绪 表达 。( 右 ) MNIST 流 形 的 2 维 映射 。 






































20.10.4 生成 式 对 抗 网 络 


生成 式 对 抗 网 络 ( generative adversarial network, GAN ) (Goodfellow et al., 
2014c) 是 基于 可 微 生 成 器 网 络 的 另 一 种 生成 式 建 模 方法 。 

生成 式 对 抗 网 络 基 于 博弈 论 场景 ， 其 中 生成 器 网 络 必须 与 对 手 竞争 。 生 成 器 网 
络 直接 产后 样本 z = g(z; 9(9))。 其 对 手 ， 判 别 器 网 络 (discriminator network )， 试 
图 区 分 从 训练 数据 抽取 的 样本 和 从 生成 器 抽取 的 样本 。 判 别 器 发 出 由 d(x; 9 中) 给 出 
的 概率 值 ， 指 示 x 是 真实 训练 样本 而 不 是 从 模型 抽取 的 伪造 样本 的 概率 。 
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形式 化 表示 生成 式 对 抗 网 络 中 学 习 的 最 简单 方式 是 零 和 游戏 ， 其 中 函数 
vO), 0) 确定 判别 器 的 收益 。 生 成 器 接收 -o(6@),6(9) 作为 它 自己 的 收益 。 
在 学 习 期 间 ， 每 个 玩家 尝试 最 大 化 自己 的 收益 ， 因 此 收敛 在 








g* = arg min max v(g,d). (20.80) 
g 





v 的 默认 选择 是 
009 0) = Expa, log d(2) + Exvpoaer log(1 — d(z)). (20.81) 


这 驱使 判别 器 试图 学 习 将 样品 正确 地 分 类 为 真 的 或 伪造 的 。 同 时 ， 生 成 器 试图 欺骗 
分 类 器 以 让 其 相信 样本 是 真实 的 。 在 收敛 时 , 生成 器 的 样本 与 实际 数据 不 可 区 分 ， 并 
且 判 别 器 处 处 都 输出 =。 然后 就 可 以 丢弃 判别 器 。 

设计 GAN 的 主要 动机 是 学 习 过 程 既 不 需要 近似 推断 也 不 需要 配 分 函数 梯度 的 
近似 。 当 maxav(g, d) 在 09 中 是 凸 的 ( 例如， 在 概率 密度 函数 的 空间 中 直接 执行 
优化 的 情况 ) 时 ， 该 过 程 保证 收敛 并 且 是 渐 近 一 致 的 。 

不 幸 的 是 , 在 实践 中 由 神经 网 络 表示 的 g 和 4 以 及 maxav(g,q) 不 同时 , GAN 中 
的 学 习 可 能 是 困难 的 。Goodfellow (2014) 认为 不 收敛 可 能 会 引起 GAN 的 欠 拟 合 问 
题 。 一 般 来 说 ， 同 时 对 两 个 玩家 的 成 本 梯度 下 降 不 能 保证 达到 平衡 。 例 如 ， 考 虑 价 
值 函 数 v(a,b) = ab， 其 中 一 个 玩家 控制 a 并 产生 成 本 op， 而 另 一 玩家 控制 5 并 接 
收成 本 -abg。 如 果 我 们 将 每 个 玩家 建 模 为 无 穷 小 的 梯度 步 又 ， 每 个 玩家 以 另 一 个 玩 
家 为 代价 降低 自己 的 成 本 ， 则 a 和 5 进入 稳定 的 圆 形 轨迹 ， 而 不 是 到 达 原 点 处 的 平 
衡 点 。 注 意 ， 极 小 极 大 化 游戏 的 平衡 不 是 v 的 局 部 最 小 值 。 相 反 ， 它 们 是 同时 最 小 
化 的 两 个 玩家 成 本 的 点 。 这 意味 着 它们 是 v 的 鞍点 ， 相 对 于 第 一 个 玩家 的 参数 是 局 
部 最 小 值 ， 而 相对 于 第 二 个 玩家 的 参数 是 局 部 最 大 值 。 两 个 玩家 可 以 永远 轮流 增加 
然后 减少 v， 而 不 是 正好 停 在 玩家 没有 能 力 降 低 其 成 本 的 鞍点 。 目 前 不 知道 这 种 不 收 
敛 的 问题 会 在 多 大 程度 上 影响 GAN, 

Goodfellow (2014) 确定 了 另 一 种 替代 的 形式 化 收益 公式 ， 其 中 博弈 不 再 是 零 和 ， 
每 当 判 别 器 最 优 时 ， 具 有 与 最 大 似 然 学 习 相 同 的 预期 梯度 。 因 为 最 大 似 然 训 练 收 敛 ， 
这 种 GAN 博弈 的 重 述 在 给 定 足 够 的 样本 时 也 应 该 收敛 。 不 幸 的 是 ， 这 种 替代 的 形 
式 化 似乎 并 没有 提高 实践 中 的 收敛 ， 可 能 是 由 于 判别 器 的 次 优 性 或 围绕 期 望 梯度 的 
高 方差 。 

在 真实 实验 中 ，GAN 博弈 的 最 佳 表现 形式 既 不 是 零 和 也 不 等 价 于 最 大 似 然 ， 而 
是 Goodfellow et al. (2014c) 引入 的 带 有 启发 式 动 机 的 不 同形 式 化 。 在 这 种 最 佳 性 能 
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的 形式 中 ， 生 成 器 旨 在 增加 判别 器 发 生 错 误 的 对 数 概率 ， 而 不 是 旨 在 降低 判别 需 进 
行 正确 预测 的 对 数 概率 。 这 种 重 述 仅仅 是 观察 的 结果 ， 即 使 在 判别 器 确信 地 拒绝 所 
有 生成 器 样本 的 情况 下 ， 它 也 能 导致 生成 器 代价 函数 的 导数 相对 于 判别 器 的 对 数 保 
持 很 大 。 

稳定 GAN 学 习 仍 然 是 一 个 开放 的 问题 。 幸 运 的 是 ， 当 仔细 选择 模型 架构 和 
超 参 数 时 ，GAN 学 习 效 果 很 好 。Radford et al. (2015) 设计 了 一 个 深度 卷 积 GAN 
(DCGAN), 在 图 像 合成 的 任务 上 表现 非常 好 ,并 表明 其 潜在 的 表示 空间 能 捕获 到 变 
化 的 重要 因素 ， 如 图 15.9 所 示 。 图 20.7 展 示 了 DCGAN 生成 器 生成 的 图 像 示 例 。 








20.7: 在 LSUN 数据 集 上 训练 后 ， 由 GAN 生成 的 图 像 。( 左 ) 由 DCGAN 模型 生成 的 卧室 图 
像 , 经 Radford et al. (2015) 许可 转载 。( 右 ) 由 LAPGAN 模型 生成 的 教堂 图 像 , 经 Denton et al. 
(2015) 许可 转载 。 





GAN 学 习 问 题 也 可 以 通过 将 生成 过 程 分 成 许多 级 别 的 细节 来 简化 。 我 们 可 以 训 
练 有 条 件 的 GAN (Mirza and Osindero, 2014) ， 并 学 习 从 分 布 p(z | y) 中 采样 ， 而 不 
是 简单 地 从 边缘 分 布 p(z) 中 采样 。Denton et al. (2015) 表明 一 系列 的 条 件 GAN 可 
以 被 训练 为 首先 生成 非常 低 分 辨 率 的 图 像 ， 然 后 增 量 地 向 图 像 添 加 细节 。 由 于 使 用 
拉 普 拉 斯 金字 塔 来 生成 包含 不 同 细节 水 平 的 图 像 ， 这 种 技术 被 称 为 LAPGAN 模型 。 
LAPGAN 生成 器 不 仅 能 够 欺骗 判别 器 网 络 ， 而 且 能 够 欺骗 人 类 观察 者 ， 实 验 主体 将 
高 达 40% 的 网 络 输出 识别 为 真实 数据 。 请 看 图 20.7 中 LAPGAN 生成 器 生成 的 图 像 
示例 。 

GAN 训练 过 程 中 一 个 不 寻常 的 能 力 是 它 可 以 拟 合 向 训练 点 分 配 零 概率 的 概率 
分 布 。 生 成 器 网 络 学 习 跟 踪 其 点 在 某 种 程度 上 类 似 于 训练 点 的 流 形 ， 而 不 是 最 大 化 
特定 点 的 对 数 概率 。 有 点 矛盾 的 是 ， 这 意味 着 模型 可 以 将 负 无 穷 大 的 对 数 似 然 分 配 
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给 测试 集 ， 同 时 仍然 表示 人 类 观察 者 判断 为 能 捕获 生成 任务 本 质 的 流 形 。 这 不 是 明 
显 的 优点 或 缺点 ， 并 且 只 要 向 生成 器 网 络 最 后 一 层 所 有 生成 的 值 添加 高 斯 噪声 ， 就 
可 以 保证 生成 器 网 络 向 所 有 点 分 配 非 零 概 率 。 以 这 种 方式 添加 高 斯 噪声 的 生成 器 网 
络 从 相同 分 布 的 采样 ， 即 使 用 生成 器 网 络 参 数 化 条 件 高 斯 分 布 的 均值 所 获得 的 分 布 。 

Dropout 似乎 在 判别 器 网 络 中 很 重要 。 特 别 地 ,在 计算 生成 器 网 络 的 梯度 时 , 单 
元 应 当 被 随机 地 丢弃 。 使 用 权重 除 以 二 的 确定 性 版 本 的 判别 需 的 梯度 似乎 不 是 那么 
有 效 。 同 样 ， 从 不 使 用 Dropout 似乎 会 产生 不 良 的 结果 。 

虽然 GAN 框架 被 设计 为 用 于 可 微 生 成 需 网 络 , 但 是 类 似 的 原理 可 以 用 于 训练 其 
他 类 型 的 模型 。 例 如 , 自 监督 提升 ( self-supervised boosting) 可 以 用 于 训练 RBM Æ 
Mas LAF Sin t Fa (Welling et al., 2002). 




















20.10.5 ”生成 矩 匹 配 网 络 


生成 矩 匹 配 网 络 〈generative moment matching network ) (Li et al., 2015; Dzi- 
ugaite et al., 2015) 是 另 一 种 基于 可 微 生 成 器 网 络 的 生成 模型 。 与 VAE 和 GAN 不 
同 ， 它 们 不 需要 将 生成 器 网 络 与 任何 其 他 网 络 配对 ， 如 不 需要 与 用 于 VAE 的 推断 网 
络 配对 ， 也 不 需要 与 GAN 的 判别 器 网 络 。 

生成 矩 匹 配 网 络 使 用 称 为 FEE BE (moment matching ) 的 技术 训练 。 和 矩 匹 配 背 
后 的 基本 思想 是 以 如 下 的 方式 训练 生成 器 一 一 令 模 型 生成 的 样本 的 许多 统计 量 尽 可 
能 与 训练 集中 的 样本 相似 。 在 此 情景 下 ， 德 (moment ) 是 对 随机 变量 不 同 窜 的 期 
望 。 例 如 ,第 一 矩 是 均值 ， 第 二 矩 是 平方 值 的 均值 ， 以 此 类 推 。 多 维 情况 下 ， 随 机 向 
量 的 每 个 元 素 可 以 被 升 高 到 不 同 的 震 ， 因 此 使 得 矩 可 以 是 任意 数量 的 形式 


























Ea | | sae (20.82) 


其 中 n= [na .md 是 一 个 非 负 整数 的 向 量 。 

在 第 一 次 检查 时 ， 这 种 方法 似乎 在 计算 上 是 不 可 行 的 。 例 如 ， 如 果 我 们 想 匹 配 
形式 为 wzj 的 所 有 矩 ， 那 么 我 们 需要 最 小 化 在 z 的 维度 上 是 二 次 的 多 个 值 之 间 的 
差 。 此 外 ， 甚 至 匹配 所 有 第 一 和 第 二 矩 将 仅 足 以 拟 合 多 变量 高 斯 分 布 ， 其 仅 捕获 值 
之 间 的 线性 关系 。 我 们 使 用 神经 网 络 的 野心 是 捕获 复杂 的 非 线性 关系 ， 这 将 需要 更 
ZW. GAN 通过 使 用 动态 更 新 的 判别 器 避免 了 穷 举 所 有 和 矩 的 问题 ， 该 判别 需 自 动 
将 其 注意 力 集中 在 生成 器 网 络 最 不 匹配 的 统计 量 上 。 
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相反 ， 我 们 可 以 通过 最 小 化 一 个 被 称 为 最 大 平均 偏差 ( maximum mean dis- 
crepancy, MMD ) (Schélkopf and Smola, 2002; Gretton et al., 2012) 的 代价 函数 来 
VREMEA A. AAUP RAGE Tn] AK PRICE SCPE ZS [ia] BCT, FETC BR 
维 空间 中 测量 第 一 和 矩 的 误差 ， 使 得 对 无 限 维 向 量 的 计算 变 得 可 行 。 当 且 仅 当 所 比较 
的 两 个 分 布 相 等 时 ，MMD 代价 为 零 。 

从 可 视 化 方面 看 ,来 自生 成 矩 匹配 网 络 的 样本 有 点 令 人 失望 。 和 幸运 的 是 ， 它 们 
可 以 通过 将 生成 器 网 络 与 自 编码 器 组 合 来 改进 。 首 先 ， 训 练 自 编码 器 以 重 构 训 练 集 。 
接 下 来 ， 自 编码 带 的 编码 器 用 于 将 整个 训练 集 转换 到 编码 空间 。 然 后 训练 生成 器 网 
络 以 生成 编码 样本 ， 这 些 编码 样本 可 以 经 解码 器 映 射 到 视觉 上 令 人 满意 的 样本 。 

与 GAN 不 同 ， 代 价 函 数 仅 关于 一 批 同时 来 自 训练 集 和 生成 器 网 络 的 实例 定义 。 
我 们 不 可 能 将 训练 更 新 作为 一 个 训练 样本 或 仅 来 自生 成 器 网 络 的 一 个 样本 的 函数 。 
这 是 因为 必须 将 矩 计算 为 许多 样本 的 经 验 平 均值 。 当 批量 大 小 太 小 时 ，MMD 可 能 
低估 采样 分 布 的 真实 变化 量 。 有 限 的 批量 大 小 都 不 足以 大 到 完全 消除 这 个 问题 ， 但 
是 更 大 的 批量 大 小 减少 了 低估 的 量 。 当 批量 大 小 太 大 时 ， 训 练 过 程 就 会 慢 得 不 可 行 ， 
因为 计算 单个 小 梯度 步 长 必须 一 下 子 处 理 许多 样本 。 


与 GAN 一 样 , 即使 生成 器 网 络 为 训练 点 分 配 零 概率 , 仍 可 以 使 用 MMD 训练 生 
成 融 网 络 。 


20.10.6 ERER? 


当 生 成 图 像 时 ， 将 卷 积 结构 的 引入 生成 器 网 络 通常 是 有 用 的 ( 见 Goodfellow 
et al. (2014c) 或 Dosovitskiy et al. (2015) WHIT). 为 此 ,我 们 使 用 卷 积 算 子 的 “ 转 
E, 如 第 9.5 节 所 述 。 这 种 方法 通常 能 产生 更 逼真 的 图 像 , 并 且 比 不 使 用 参数 共享 的 
全 连接 层 使 用 更 少 的 参数 。 

用 于 识别 任务 的 卷 积 网 络 具 有 从 图 像 到 网 络 项 部 的 某 些 概括 层 (通常 是 类 标签 ) 
的 信息 流 。 当 该 图 像 通过 网 络 向 上 流动 时 ， 随 着 图 像 的 表示 变 得 对 于 有 害 变 换 保 持 
AME, 信息 也 被 丢弃 。 在 生成 器 网 络 中 ,情况 恰恰 相反 。 要 生成 图 像 的 表示 通过 网 络 
传播 时 必须 添加 丰富 的 详细 信息 ， 最 后 产生 图 像 的 最 终 表 示 ， 这 个 最 终 表示 当然 是 
带 有 所 有 细节 的 精细 图 像 本 身 (具有 对 象 位 置 、 姿 势 、 纹 理 以 及 明暗 )。 在 卷 积 识别 
网 络 中 丢弃 信息 的 主要 机 制 是 池 化 层 。 而 生成 器 网 络 似乎 需要 添加 信息 。 由 于 大 多 
数 池 化 函数 不 可 逆 ， 我 们 不 能 将 池 化 层 求 逆 后 放 入 生成 器 网 络 。 更 简单 的 操作 是 仅 
仪 增加 表示 的 空间 大 小 。 似 乎 可 接受 的 方法 是 使 用 Dosovitskiy et al. (2015) 引入 的 
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“去 池 化 "。 该 层 对 应 于 某 些 简化 条 件 下 最 大 池 化 的 逆 操 作 。 首 先 ， 最 大 池 化 操作 的 
步 幅 被 约束 为 等 于 池 化 区 域 的 宽度 。 其 次 ， 每 个 池 化 区 域内 的 最 大 输入 被 假定 为 左 
上 和 角 的 输入 。 最 后 ， 假 设 每 个 池 化 区 域内 所 有 非 最 大 的 输入 为 零 。 这 些 是 非常 强 和 
不 现实 的 假设 ， 但 它们 人 允许 我 们 对 最 大 池 化 算 子 求 着。 逆 去 池 化 的 操作 分 配 一 个 零 
张 量 ， 然 后 将 每 个 值 从 输入 的 空间 坐标 i 复制 到 输出 的 空间 坐标 i x k。 整 数值 k 定 
义 池 化 区 域 的 大 小 。 即 使 驱动 去 池 化 算 子 定义 的 假设 是 不 现实 的 ， 后 续 层 也 能 够 学 
习 补 途 其 不 寻常 的 和 输出， 所 以 由 整体 模型 生成 的 样本 在 视觉 上 令 人 满意 。 


20.10.7 ” 自 回 归 网 络 


自 回归 网 络 是 没有 洪 在 随机 变量 的 有 向 概率 模型 。 这 些 模型 中 的 条 件 概率 分 布 
由 神经 网 络 表示 (有 时 是 极 简单 的 神经 网 络 ， 例 如 逻辑 回归 )。 这 些 模 型 的 图 结构 
是 完全 图 。 它 们 可 以 通过 概率 的 链 式 法 则 分 解 观察 变量 上 的 联合 概率 ， 从 而 获得 形 
如 P(za | ta-1,---,01) 条 件 概率 的 乘积 。 这 样 的 模型 被 称 为 完全 可 见 的 贝 叶 斯 网 
络 (fully-visible Bayes networks, FVBN )， 并 成 功 地 以 许多 形式 使 用 ， 首 先是 对 每 
个 条 件 分 布 逻 辑 回 归 (Frey, 1998) ， 然 后 是 带 有 隐藏 单元 的 神经 网 络 (Bengio and 
Bengio, 2000b; Larochelle and Murray, 2011)。 在 某 些 形式 的 自 回 归 网 络 中 ,例如 在 
第 20.10.10 节 中 描述 的 NADE (Larochelle and Murray, 2011), 我 们 可 以 引入 参数 共 
享 的 一 种 形式 ， 它 能 带 来 统计 优点 ( 较 少 的 唯一 参数 ) 和 计算 优势 ( 较 少 计算 量 )。 
这 是 深度 学 习 中 反复 出 现 的 主题 一 一 特征 重用 的 男 一 个 实例 。 














20.10.8 ”线性 自 回 归 网 络 


自 回归 网 络 的 最 简单 形式 是 没有 隐藏 单元 、 没 有 参数 或 特征 共享 的 形式 。 每 个 
P(x; | tii,- 21) 被 参数 化 为 线性 模型 ( 对 于 实 值 数据 的 线性 回归 ， 对 于 二 值 数据 
的 逻辑 回归 ， 对 于 离散 数据 的 softmax 回 归 )。 这 个 模型 由 Frey (1998) 51A, 4A d 
个 变量 要 建 模 时 ， 该 模型 有 O(d2) 个 参数 。 如 图 20.8 所 示 。 

如 果 变 量 是 连续 的 ， 线 性 自 回 归 网 络 只 是 表示 多 元 高 斯 分 布 的 另 一 种 方式 ， 只 
能 捕获 观察 变量 之 间 线 性 的 成 对 相互 作用 。 

线性 自 回归 网 络 本 质 上 是 线性 分 类 方法 在 生成 式 建 模 上 的 推广 。 因 此 ， 它 们 有 具 
有 与 线性 分 类 器 相同 的 优 缺 点 。 像 线性 分 类 器 一 样 ,它们 可 以 用 凸 损失 函数 训练 , 并 
且 有 时 允许 闭 解 形 式 ( 如 在 高 斯 情况 下 )。 像 线性 分 类 器 一 样 ， 模 型 本 身 不 提供 增加 
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图 20.8: 完全 可 见 的 信念 网 络 从 前 i 一 1 个 变量 预测 第 i 个 变量 。( 上 ) FVBN 的 有 向 图 模型 。( 下 ) 
对 数 FVBN 相应 的 计算 图 ， 其 中 每 个 预测 由 线性 预测 需 作 出 。 























其 容量 的 方法 ， 因 此 必须 使 用 其 他 技术 《如 输入 的 基 扩 展 或 核 技巧 ) 来 提高 容量 。 


20.10.9 ”神经 自 回 归 网 络 











神经 自 回归 网 络 (Bengio and Bengio, 2000a,b) 具有 与 逻辑 自 回归 网 络 相同 的 从 
左 到 右 的 图 模型 ( 图 20.8 )， 但 在 该 图 模型 结构 内 采用 不 同 的 条 件 分 布 参数 。 新 的 参 
数 化 更 强大 ， 它 可 以 根据 需要 随意 增加 容量 ， 并 人 允许 近似 任意 联合 分 布 。 新 的 参数 
化 还 可 以 引入 深度 学 习 中 和 常见 的 参数 共享 和 特征 共享 原理 来 改进 泛 化 能 力 。 设 计 这 
些 模 型 的 动机 是 避免 传统 表格 图 模型 引起 的 维 数 灾难 ， 并 与 图 20.8 共 享 相同 的 结构 。 
在 表格 离散 概率 模型 中 ， 每 个 条 件 分 布 由 概率 表 表 示 ， 其 中 所 涉及 的 变量 的 每 个 可 
能 配置 都 具有 一 个 条 目 和 一 个 参数 。 通 过 使 用 神经 网 络 ， 可 以 获得 两 个 优点 : 








1. 通过 具有 (i 一 1) x k 个 输入 和 大 个 输出 的 神经 网 络 〈 如 果 变 量 是 离散 的 并 有 ,大 
个 值 ， 使 用 one-hot 编 码 ) 参数 化 每 个 P(zi; | xi_1,.…., 7x1)， 让 我 们 不 需要 指数 
量 级 参数 ( 和 样本 ) 的 情况 下 就 能 估计 条 件 概率 ， 然 而 仍然 能 够 捕获 随机 变量 
之 间 的 高 阶 依赖 性 。 


2. 不 需要 对 预测 每 个 x; 使 用 不 同 的 神经 网 络 , 如 图 20.9 所 示 的 从 左 到 右 连 接 , 允 
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许 将 所 有 神经 网 络 合并 成 一 个 。 等 价 地 , 它 意 味 着 为 预测 x; 所 计算 的 隐藏 层 特 
征 可 以 重新 用 于 预测 vipe (k > 0)。 因 此 隐藏 单元 被 组 织 成 第 i 组 中 的 所 有 单 
元 仪 依赖 于 输入 值 x1,……. ,zi 的 特定 的 组 。 用 于 计算 这 些 隐藏 单元 的 参数 被 联 
合 优化 以 改进 对 序列 中 所 有 变量 的 预测 。 这 是 重用 原理 的 一 个 实例 ， 这 是 从 循 
环 和 卷 积 网 络 架构 到 多 任务 和 迁移 学 习 的 场景 中 反复 出 现 的 深度 学 习 原 理 。 








图 20.9: 神经 自 回 归 网 络 从 前 i 一 1 个 变量 预测 第 i 个 变量 ri, 但 经 参数 化 后 ， 作 为 zl, .… ,zi K 
数 的 特征 ( 表示 为 hi 的 隐藏 单元 的 组 ) 可 以 在 预测 所 有 后 续 变 量 orig, Tit, -o ca 时 重用 。 





























如 在 第 6.2.2.1 节 中 讨论 的 ， 使 神经 网 络 的 输出 预测 x; 条 件 分 布 的 参数 ， 每 
个 P(zi | zi-1,.…,z1) 就 可 以 表示 一 个 条 件 分 布 。 虽然 原始 神经 自 回归 网 络 最 初 
是 在 纯粹 离散 多 变量 数据 CEA sigmoid 输出 的 Bernoulli 变量 或 softmax 输出 
的 Multinoulli 变量 ) 的 背景 下 评估 ， 但 我 们 可 以 自然 地 将 这 样 的 模型 扩展 到 连续 变 
量 或 同时 涉及 离散 和 连续 变量 的 联合 分 布 。 


20.10.10 NADE 


神经 自 回归 密度 估计 器 (neural auto-regressive density estimator, NADE ) 是 最 
近 非 常 成 功 的 神经 自 回归 网 络 的 一 种 形式 (Larochelle and Murray, 2011)。 与 Bengio 
and Bengio (2000b) 的 原始 神经 自 回 归 网 络 中 的 连接 相同 , 但 NADE 引入 了 附加 
的 参数 共享 方案 ， 如 图 20.10 所 示 。 不 同 组 7 的 隐藏 单元 的 参数 是 共享 的 。 


从 第 i 个 输入 zi 到 第 j 组 隐藏 单元 的 第 k 个 元 素 hy? (j >i) 的 权重 W, pi 是 





wwaibbt.com DODDDDDOD 


dou- SB 3s 50DFEO 
604 第 二 十 章 深度 生成 模型 
组 内 共享 的 : 
Wing = Wai: (20.83) 


ER j <i 的 权重 为 零 。 





图 20.10: 神经 自 回归 密度 估计 器 (NADE ) 的 示意 图 。 隐 藏 单 元 被 组 织 在 组 A 中 ,使 得 只 有 输 
A a,...,0) 参与 计算 hO 和 预测 P(x; | zj;_1,...,z1) OFF j >i). NADE 使 用 特定 的 权重 共 
享 模式 区 别 于 早期 的 神经 自 回归 网 络 : Wj, ; = Wri 被 共享 于 所 有 从 zi 到 任何 j > i 组 中 第 个 
单元 的 权重 ( 在 图 中 使 用 相同 的 线 型 表示 复制 权重 的 每 个 实例 )。 注 意向 量 (Wii, Wais., Wn) 
记 为 W.io 






































Larochelle and Murray (2011) 选择 了 这 种 共享 方案 ,使 得 NADE 模型 中 的 正 
向 传播 与 在 均匀 场 推断 中 执行 的 计算 大 致 相似 , 以 填充 RBM 中 缺失 的 输入 。 这 个 均 
匀 场 推断 对 应 于 运行 具有 共享 权重 的 循环 网 络 ， 并 且 该 推断 的 第 一 步 与 NADE 中 的 
相同 。 使 用 NADE 的 唯一 区 别 是 ， 连 接 隐藏 单元 到 输出 的 输出 权重 独立 于 连接 输入 
单元 和 隐藏 单元 的 权重 进行 参数 化 。 在 RBM 中 ， 隐 藏 到 输出 的 权重 是 输入 到 隐藏 
权重 的 转 置 。NADE 架构 可 以 扩展 为 不 仅仅 模拟 均匀 场 循 环 推 凯 的 一 个 时 间 步 ， 而 
是 上 步 。 这 种 方法 称 为 NADE-k (Raiko et al., 2014). 

如 前 所 述 , 自 回 归 网 络 可 以 被 扩展 成 处 理 连续 数据 。 用 于 参数 化 连续 密度 的 特别 
强大 和 通用 的 方法 是 混合 权重 为 ai 组 i 的 系数 或 先 验 概率 )， 每 组 条 件 均值 为 ui 
和 每 组 条 件 方差 为 o? 的 高 斯 混合 体 。 一 个 称 为 RNADE 的 模型 (Uria et al., 2013) 
使 用 这 种 参数 化 将 NADE 扩展 到 实 值 。 与 其 他 混合 密度 网 络 一 样 ， 该 分 布 的 参数 是 
网 络 的 输出 ， 由 softmax 单元 产生 混合 的 权 量 概率 以 及 参数 化 的 方差 ， 因 此 可 使 它 
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们 为 正 的 。 由 于 条 件 均值 和 条 件 方差 o? 之 间 的 相互 作用 ， 随 机 梯度 下 降 在 数值 
上 可 能 会 表现 不 好 。 为 了 减少 这 种 困难 ，Uria et al. (2013) 在 后 回 传 播 阶段 使 用 伪 梯 
度 代替 平均 值 上 的 梯度 。 

另 一 个 非常 有 趣 的 神经 自 回 归 架 构 的 扩展 摆脱 了 为 观察 到 的 变量 选择 任意 顺序 
的 需要 (Murray and Larochelle, 2014)。 在 自 回归 网 络 中 ， 该 想法 是 训练 网 络 以 能 够 
通过 随机 采样 顺序 来 处 理 任 何 顺序 ， 并 将 信息 提供 给 指定 哪些 输入 被 观察 的 隐藏 单 
元 〈 在 条 件 条 的 右 侧 )， 以 及 哪些 是 被 预测 并 因此 被 认为 是 缺失 的 (在 条 件 条 的 左 
侧 )。 这 是 不 错 的 性 质 ， 因 为 它 允 许 人 们 非常 高 效 地 使 用 训练 好 的 自 回归 网 络 来 执行 
任何 推断 间 题 〈 即 从 给 定 任何 变量 的 子 集 ， 从 任何 子 集 上 的 概率 分 布 预测 或 采样 )。 
最 后 ， 由 于 变量 的 许多 顺序 是 可 能 的 ( 对 于 ”个 变量 是 n! )， 并 且 变 量 的 每 个 顺序 o 
产生 不 同 的 p(x | o)， 我们 可 以 组 成 许多 o 值 模 型 的 集成 : 


k 
1 $ 
Pensemble (x) = 天 > _ v(x | ol f. (20.84) 
w=1 


这 个 集成 模型 通常 能 更 好 地 泛 化 ， 并 且 为 测试 集 分 配 比 单 个 排序 定义 的 单个 模型 更 
高 的 概率 。 

在 同一 篇 文章 中 ， 作 者 提出 了 深度 版 本 的 架构 ， 但 不 幸 的 是 ， 这 立即 使 计算 成 
本 像 原始 神经 自 回归 网 络 一 样 高 (Bengio and Bengio, 2000b)。 第 一 层 和 输出 层 仍 然 
可 以 在 O(nh) 的 乘法 -加 法 操作 中 计算 ， 如 在 常规 NADE 中 ， 其 中 h 是 隐藏 单元 的 
数量 (图 20.10 和 图 20.9 中 的 组 hi 的 大 小 为 而 它 在 Bengio and Bengio (2000b) 中 
是 O(m2h)。 然 而 ,对 于 其 他 隐藏 层 的 计算 量 是 O(n7h?) (假设 在 每 个 层 存在 nn 组 h 
个 隐藏 单 元 ， 且 在 ! 层 的 每 个 “先前 ”组 参与 预测 1 十 1 层 处 的 “下 一 个 ”组 )。 如 
在 Murray and Larochelle (2014) F, 使 1+1 层 上 的 第 i 个 组 仅 取决 于 第 i 个 组 , l 
层 处 的 计算 量 将 减少 到 O(nh?), 但 仍然 比 常规 NADE 2 h 倍 。 








20.11 从 自 编 码 器 采样 


在 第 十 四 章 中 ， 我 们 看 到 许多 种 学 习 数据 分 布 的 自 编码 器 。 得 分 匹配 、 去 噪 自 
编码 器 和 收缩 自 编码 器 之 间 有 着 密切 的 联系 。 这 些 联系 表明 某 些 类 型 的 自 编码 天 以 
某 些 方式 学 习 数 据 分 布 。 我 们 还 没有 讨论 如 何 从 这 样 的 模型 中 采样 。 

某 些 类 型 的 自 编码 器 ， 例 如 变 分 自 编码 器 ， 明 确 地 表示 概率 分 布 并 且 允 许 直 接 
的 原始 采样 。 而 大 多 数 其 他 类 型 的 自 编 码 器 则 需要 MCMC 采样 。 
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收缩 自 编 码 需 被 设计 为 恢复 数据 流 形 切面 的 估计 。 这 意味 着 使 用 注入 噪声 的 
重复 编码 和 解码 将 引起 沿 着 流 形 表面 的 随机 游 走 (Rifai et al., 2012; Mesnil et al., 
2012)。 这 种 流 形 扩散 技术 是 马尔 可 夫 链 的 一 种 。 

更 一 般 的 马尔 可 夫 链 还 可 以 从 任何 去 噪 自 编码 器 中 采样 。 


20.11.1 “与 任意 去 噪 自 编码 器 相关 的 马尔 可 夫 链 


上 述 讨论 留 下 了 一 个 开放 问题 一 一 注入 什么 噪声 和 从 哪 获得 马尔 可 夫 链 ( 可 以 
根据 自 编码 器 估计 的 分 布 生成 样本 )。Bengio et al. (2013d) 展示 了 如 何 构建 这 种 用 
于 广义 去 噪 自 编码 器 (generalized denoising autoencoder) 的 马尔 可 夫 链 。 广 义 去 噪 
自 编码 器 由 去 唱 分 布 指定 ， 给 定 损坏 输入 后 ， 对 干净 输入 的 估计 进行 采样 。 

根据 估计 分 布 生成 的 马尔 可 夫 链 的 每 个 步骤 由 以 下 子 步骤 组 成 ， 如 图 20.11 所 
JR: 


1. 从 先前 状态 x 开始， 注入 损坏 噪声 ， 从 C(z | z) 中 采样 zo 
2. 将 T 编码 为 h= f(z). 





3. 解码 h 以 获得 p(x | w = g(h)) = p(x | 的 参数 w = g(h). 
4. 从 p(x | w = g(h)) = p(x | &) RE FARA a. 


Bengio et al. (2014) 表明 ， 如 果 自 编码 器 p(x | 2) 形成 对 应 真实 条 件 分 布 的 一 致 佑 
计量 ， 则 上 述 马尔 可 夫 链 的 平稳 分 布 形成 数据 生成 分 布 x 的 一 致 估计 量 (虽然 是 隐 
式 的 )。 


20.11.2 “ 夹 合 与 条 件 采 样 


与 玻 尔 效 曼 机 类 似 ， 去 噪 自 编码 器 及 其 推广 (例如 下 面 描述 的 GSN) 可 用 于 
从 条 件 分 布 p(xy | Xo) 中 采样 ， 只 需 夹 合 观察 单元 xj 并 在 给 定 x, 和 采 好 的 潜 变 
量 (如 果 有 的 话 ) 下 仅 重 采样 自由 单元 x。。 例 如 ，MP-DBM 可 以 被 解释 为 去 品 自 
编码 器 的 一 种 形式 ， 并 且 能 够 采样 丢失 的 输入 。GSN 随后 将 MP-DBM 中 的 一 些 想 
法 推广 以 执行 相同 的 操作 (Bengio et al., 2014)。Alain et al. (2015) 从 Bengio et al. 
(2014) 的 命题 1 中 发 现 了 一 个 缺失 条 件 ， 即 转移 算 子 ( 由 从 链 的 一 个 状态 到 下 一 个 
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geia barh 4 








图 20.11: 马尔 可 夫 链 的 每 个 步 又 与 训练 好 的 去 噪 自 编 码 器 相关 联 ， 根 据 由 去 噪 对 数 似 然 准则 隐 式 
训练 的 概率 模型 生成 样本 。 每 个 步 又 包括 : (a) 通过 损坏 过 程 C 向 状态 x 注入 噪声 产生 z, (b) 用 
函数 f 对 其 编码 ， 产 生 h= f(%)，(c) 用 函数 9 解码 结果 ， 产 生 用 于 重 构 分 布 的 参数 w, (d) 给 
Ew, NEWI p(x | w = g(f(z))) 采样 新 状态 。 在 典型 的 平方 重 构 误差 情况 下 ，g(h) = 多， 并 
估计 E[z | 多 ， 损 坏 包 括 添加 高 斯 噪声 ， 并 且 从 p(x|w) 的 采样 包括 第 二 次 向 重 构 & 添加 高 斯 噪声 。 
后 者 的 噪声 水 平 应 对 应 于 重 构 的 均 方 误差 ， 而 注入 的 噪声 是 控制 混合 速度 以 及 估计 器 平滑 经 验 分 
布 程度 的 超 参数 (Vincent, 2011)。 在 这 所 示 的 例子 中 ， 只 有 C 和 p 条 件 是 随机 步骤 (Cf 和 9g 是 
确定 性 计算 )， 我 们 也 可 以 在 自 编码 器 内 部 注入 噪声 ， 如 生成 随机 网 络 (Bengio et al., 2014). 





































































































状态 的 随机 映射 定义 ) 应 该 满足 细致 平衡 ( detailed balance ) 的 属性 ， 表 明 无 论 转 
移 算 子 正 向 或 反 向 运行 ， 马 尔 可 夫 链 都 将 保持 平衡 。 

在 图 20.12 中 展示 了 夹 合 一 半 像 素 ( 图 像 的 右 部 分 ) 并 在 男 一 半 上 运行 马尔 可 夫 
链 的 实验 。 


20.11.3” 回 退 训 练 过 程 


回 退 训练 过 程 由 Bengio et al. (2013d) 等 人 提出 ,作为 一 种 加 速 去 品 自 编码 器 生 
成 训练 收敛 的 方法 。 不 像 执 行 一 步 编码 -解码 重建 ， 该 过 程 有 代替 的 多 个 随机 编码 - 解 
码 步 又 组 成 (如 在 生成 马尔 可 夫 链 中 )， 以 训练 样本 初始 化 (正如 在 第 18.2 节 中 描述 
的 对 比 散 度 算法 )， 并 惩罚 最 后 的 概率 重建 (或 沿途 的 所 有 重建 )。 

训练 个 步骤 与 训练 一 个 步 又 是 等 价 的 〈 在 实现 相同 稳 态 分 布 的 意义 上 ), 但 是 
实际 上 可 以 更 有 效 地 去 除 来 自 数据 的 伪 模 式 。 
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图 20.12: 在 每 步 仅 重 采样 左 半 部 分 ， 夹 合 图 像 的 右 半 部 分 并 运行 马尔 可 
来 自重 构 MNIST 数字 的 GSN ( 每 个 时 间 步 使 用 回 退 过 程 )。 














20.12 ”生成 随机 网 络 


生成 随机 网 络 ( generative stochastic network, GSN ) (Bengio et al., 2014) 是 去 
品 自 编码 融 的 推广 ， 除 可 见 变 量 (通常 表示 为 x ) 之 外 ， 在 生成 马尔 可 夫 链 中 还 包 
括 潜 变量 ho 


GSN 由 两 个 条 件 概 率 分 布 参 数 化 ， 指 定 马 尔 可 夫 链 的 一 步 : 











1. p(x | hH) 指示 在 给 定 当 前 潜在 状态 下 如 何 产生 下 一 个 可 见 变量 。 这 种 “ 重 
建 分 布 ” 也 可 以 在 去 品 自 编码 器 、RBM、DBN 和 DBM 中 找到 。 














2.p(h | PY, xD) 指示 在 给 定 先前 的 潜在 状态 和 可 见 变量 下 如 何 更 新 潜 
在 状态 变量 。 





去 噪 自 编码 器 和 GSN 不 同 于 经 典 的 概率 模型 (有 向 或 无 向 )， 它 们 自己 参数 化 
生成 过 程 而 不 是 通过 可 见 和 洪 变 量 的 联合 分 布 的 数学 形式 。 相 反 ， 后 者 如 果 存 在 则 
隐 式 地 定义 为 生成 马尔 可 夫 链 的 稳 态 分 布 。 存 在 稳 态 分 布 的 条 件 是 温和 的 ， 并 且 需 
要 与 标准 MCMC 方法 相同 的 条 件 ( 见 第 17.3 节 )。 这 些 条 件 是 保证 链 混合 的 必要 条 
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件 ， 但 它们 可 能 被 某 些 过 渡 分 布 的 选择 〈 例如， 如 果 它 们 是 确定 性 的 ) 所 违反 。 

我 们 可 以 想象 GSN 不 同 的 训练 准则 。 由 Bengio et al. (2014) 提出 和 评估 的 
只 对 可 见 单元 上 对 数 概率 的 重建 ， 如 应 用 于 去 噪 自 编码 器 。 通 过 将 xO = z k 
合 到 观察 到 的 样本 并 且 在 一 些 后 续 时 间 步 处 使 生成 z 的 概率 最 大 化 ， 即 最 大 化 
logp(x = g| h®), APAE x =z, hH 从 链 中 采样 。 为 了 估计 相对 于 模 
型 其 他 部 分 的 logp(x = s| h)) 的 梯度 ，Bengio et al. (2014) 使 用 了 在 第 20.9 节 
中 介绍 的 重 参数 化 技巧 。 

回 退 训练 过 程 (在 第 20.11.3 节 中 描述 ) 可 以 用 来 改善 训练 GSN 的 收敛 性 (Ben- 
gio et al., 2014) 。 





20.12.1 判别 性 GSN 


GSN 的 原始 公式 (Bengio et al., 2014) 用 于 无 监督 学 习 和 对 观察 数据 x 的 p(x) 
的 隐 式 建 模 ， 但 是 我 们 可 以 修改 框架 来 优化 p(y | x). 

例如 ，Zhou and Troyanskaya (2014) 以 如 下 方式 推广 GSN， 只 反 向 传播 输出 变 
量 上 的 重建 对 数 概率 ， 并 保持 输入 变量 固定 。 他 们 将 这 种 方式 成 功 应 用 于 建 模 序列 
( 蛋白质 二 级 结构 )， 并 在 马尔 可 夫 链 的 转换 算 子 中 引入 (一 维 ) 卷 积 结构 。 重 要 的 
是 要 记 住 ， 对 于 马尔 可 夫 链 的 每 一 步 ， 我 们 需要 为 每 个 层 生 成 新 序列 ， 并 且 该 序列 
用 于 在 下 一 时 间 步 计算 其 他 层 的 值 (例如 下 面 一 个 和 上 面 一 个 ) 的 输入 。 

因此 ， 马 尔 可 夫 链 确实 不 只 是 输出 变量 ( 与 更 高 层 的 隐藏 层 相 关联 )， 并 且 输 入 
序列 仅 用 于 条 件 化 该 链 ， 其 中 反 向 传播 使 得 它 能 够 学 习 输 入 序列 如 何 条 件 化 由 马尔 
可 夫 链 隐 含 表示 的 输出 分 布 。 因 此 这 是 在 结构 化 输出 中 使 用 GSN 的 一 个 例子 。 

Zéhrer and Pernkopf (2014) 引入 了 一 个 混合 模型 ， 通 过 简单 地 添加 (使 用 不 
同 的 权重 ) 监督 和 非 监 督 成 本 即 y 和 x 的 重建 对 数 概 率 ， 组 合 了 监督 目标 (如 上 
面 的 工作 ) 和 无 监督 目标 (如 原始 的 GSN )。Larochelle and Bengio (2008b) 以 前 
在 RBM 中 就 提出 了 这 样 的 混合 标准 。 他 们 展示 了 在 这 种 方案 下 分 类 性 能 的 提升 。 














20.13 ”其 他 生成 方案 


目前 为 止 我 们 已 经 描述 的 方法 ,使 用 MCMC 采样 、 原 始 采样 或 两 者 的 一 些 混 
合 来 生成 样本 。 虽 然 这 些 是 生成 式 建 模 中 最 流行 的 方法 ， 但 它们 绝 不 是 唯一 的 方法 。 
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Sohl-Dickstein et al. (2015) 开发 了 一 种 基于 非 平衡 热力 学 学 习 生 成 模型 的 扩散 
反 演 (diffusion inversion) 训练 方案 。 该 方法 基于 我 们 希望 从 中 采样 的 概率 分 布 具有 
结构 的 想法 。 这 种 结构 会 被 递增 地 使 概率 分 布 具 有 更 多 信 的 扩散 过 程 逐 渐 破 坏 。 为 
了 形成 生成 模型 ， 我 们 可 以 反 过 来 运行 该 过 程 ， 通 过 训练 模型 逐渐 将 结构 恢复 到 非 
结构 化 分 布 。 通 过 迭代 地 应 用 使 分 布 更 接近 目标 分 布 的 过 程 ， 我 们 可 以 逐渐 接近 该 
目标 分 布 。 在 涉及 许多 迭代 以 产生 样本 的 意义 上 ,这 种 方法 类 似 于 MCMC 方法 。 然 
而 , 模型 被 定义 为 由 链 的 最 后 一 步 产 生 的 概率 分 布 。 在 这 个 意义 上 , 没有 由 迭代 过 程 
诱导 的 近似 。Sohl-Dickstein et al. (2015) 介绍 的 方法 也 非常 接近 于 去 噪 自 编码 器 的 
生成 解释 (第 20.11.1 节 )。 与 去 品 自 编码 器 一 样 ， 扩散 反 演 训练 一 个 尝试 概率 地 撤消 
添加 的 噪声 效果 的 转移 算 子 。 不 同 之 处 在 于 ， 扩 散 反 演 只 需要 消除 扩散 过 程 的 一 个 
步骤 ， 而 不 是 一 直 返 回 到 一 个 干净 的 数据 点 。 这 解决 了 去 噪 自 编码 器 的 普通 重建 对 
数 似 然 目 标 中 存在 的 以 下 两 难 问题 : 小 噪声 的 情况 下 学 习 者 只 能 看 到 数据 点 附近 的 
配置 ， 而 在 大 噪声 的 情况 下 ， 去 噪 自 编码 需 被 要 求 做 几乎 不 可 能 的 工作 〈 因为 去 噪 
分 布 是 高 度 复杂 和 多 峰值 的 ) 利用 扩散 反 演 目标 ， 学 习 者 可 以 更 精确 地 学 习 数 据点 
周围 的 密度 形状 ， 以 及 去 除 可 能 在 远离 数据 点 处 出 现 的 假 性 模式 。 

样本 生成 的 另 一 种 方法 是 近似 贝 叶 斯 计算 (approximate Bayesian computation, 
ABC ) 框架 (Rubin et al., 1984)。 在 这 种 方法 中 ， 样 本 被 拒绝 或 修改 以 使 样本 选 定 
函数 的 玫 匹配 期 望 分 布 的 那些 和 矩 。 虽 然 这 个 想法 与 矩 匹 配 一 样 使 用 样本 的 和 矩 ， 但 它 
不 同 于 和 矩 匹配 ， 因 为 它 修改 样本 本 身 ， 而 不 是 训练 模型 来 自动 发 出 具有 正确 矩 的 样 
AX, Bachman and Precup (2015) 展示 了 如 何在 深度 学 习 的 背景 下 使 用 ABC 中 的 想 
法 ， 即 使 用 ABC 来 塑造 GSN 的 MCMC 轨迹 。 


我 们 期 得 更 多 其 他 等 待 发 现 的 生成 式 建 模 方法 。 

















20.14 ”评估 生成 模型 


研究 生成 模型 的 研究 者 通常 需要 将 一 个 生成 模型 与 男 一 个 生成 模型 比较 ， 通 常 
是 为 了 证 明 新 发 明 的 生成 模型 比 之 前 存在 的 模型 更 能 捕获 一 些 分 布 。 

这 可 能 是 一 个 困难 且 微 妙 的 任务 。 通 常 ， 我 们 不 能 实际 评估 模型 下 数据 的 对 数 
概率 ， 但 仅 可 以 评估 一 个 近似 。 在 这 些 情 况 下 ， 重 要 的 是 思考 和 沟通 清楚 正在 测量 
什么 。 例 如 ， 假 设 我 们 可 以 评估 模型 A 对 数 似 然 的 随机 估计 和 模型 B 对 数 似 然 的 
确定 性 下 界 。 如 果 模 型 A 得 分 高 于 模型 B， 哪 个 更 好 ? 如 果 我 们 关心 确定 哪个 模型 
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具有 分 布 更 好 的 内 部 表示 ， 我 们 实际 上 不 能 说 哪个 更 好 ， 除 非 我 们 有 一 些 方法 来 确 
定 模型 B 的 边界 有 多 松 。 然 而 ， 如 果 我 们 关心 在 实践 中 该 模型 能 用 得 多 好 ， 例 如 执 
行 异 常 检 测 ， 则 基于 特定 于 感 兴趣 的 实际 任务 的 准则 ， 可 以 公平 地 说 模型 是 更 好 的 ， 
例如 基于 排名 测试 样 例 和 排名 标准 ， 如 精度 和 召回 率 。 

评估 生成 模型 的 另 一 个 微妙 之 处 是 ， 评 估 指 标 往往 是 自身 困难 的 研究 问题 。 可 
能 很 难 确定 模型 是 否 被 公平 比较 。 例 如 ， 假 设 我 们 使 用 AIS 来 估计 log Z 以 便 为 我 
们 刚刚 发 明 的 新 模型 计算 log p(w) —log Zo AIS 计算 经 济 的 实现 可 能 无 法 找到 模型 
分 布 的 几 种 模式 并 低估 2 ， 这 将 导致 我 们 高 估 logp(z)。 因 此 可 能 难以 判断 高 似 然 佑 
计 是 否 是 良好 模型 或 不 好 的 AIS 实现 导致 的 结果 。 

机 器 学 习 的 其 他 领域 通常 允许 在 数据 预 处 理 中 有 一 些 变化 。 例 如 ， 当 比较 对 象 
识别 算法 的 准确 性 时 ， 通 常 可 接受 的 是 对 每 种 算法 略微 不 同 地 预 处 理 输入 图 像 ( 基 
于 每 种 算法 具有 何 种 输入 要 求 )。 而 因为 预 处 理 的 变化 ,会 导致 生成 式 建 模 的 不 同 ， 
甚至 非常 小 和 微妙 的 变化 也 是 完全 不 可 接受 的 。 对 输入 数据 的 任何 更 改 都 会 改变 要 
捕获 的 分 布 ， 并 从 根本 上 改变 任务 。 例 如 ， 将 输入 乘 以 0.1 将 人 为 地 将 概率 增加 10 
fiio 

预 处 理 的 问题 通常 在 基于 MNIST 数据 集 上 的 生成 模型 产生 ，MNIST 数据 集 是 
非常 受 欢 迎 的 生成 式 建 模 基准 之 一 。MNIST 由 灰 度 图 像 组 成 。 一 些 模型 将 MNIST 
图 像 视 为 实 向 量 空间 中 的 点 ， 而 其 他 模型 将 其 视 为 二 值 。 还 有 一 些 将 灰 度 值 视 为 二 
值 样本 的 概率 。 我 们 必须 将 实 值 模型 仅 与 其 他 实 值 模型 比较 ， 二 值 模型 仅 与 其 他 二 
值 模型 进行 比较 。 否则 , 测量 的 似 然 性 不 在 相同 的 空间 。 对 于 二 值 模型 ， 对 数 似 然 可 
以 最 多 为 零 ， 而 对 于 实 值 模型 ， 它 可 以 是 任意 高 的 ， 因 为 它 是 关于 密度 的 测度 。 在 
二 值 模型 中 ， 比 较 使 用 完全 相同 的 二 值 化 模型 是 重要 的 。 例 如 ， 我 们 可 以 将 0.5 设 
为 阔 值 后 ， 将 灰 度 像素 二 值 化 为 0 或 1， 或 者 通过 由 灰 度 像素 强度 给 出 样本 为 1 的 
概率 来 采 一 个 随机 样本 。 如 果 我 们 使 用 随机 二 值 化 ， 我 们 可 能 将 整个 数据 集 二 值 化 
一 次 ， 或 者 我 们 可 能 为 每 个 训练 步 又 采 不 同 的 随机 样 例 ， 然 后 采 多 个 样本 进行 评估 。 
这 三 个 方案 中 的 每 一 个 都 会 产生 极 不 相同 的 似 然 数 ， 并 且 当 比较 不 同 的 模型 时 ， 两 
个 模型 使 用 相同 的 二 值 化 方案 来 训练 和 评估 是 重要 的 。 事 实 上 ， 应 用 单个 随机 二 值 
化 步骤 的 研究 者 共享 包含 随机 二 值 化 结果 的 文件 ， 使 得 基于 二 值 化 步骤 的 不 同 输出 
的 结果 没有 差别 。 

因为 从 数据 分 布 生成 真实 样本 是 生成 模型 的 目标 之 一 ， 所 以 实践 者 通常 通过 视 
党 检查 样本 来 评估 生成 模型 。 在 最 好 的 情况 下 ， 这 不 是 由 研究 人 员 本 身 ， 而 是 由 不 
知道 样品 来 源 的 实验 受 试 者 完成 (Denton et al., 2015)。 不 幸 的 是 ， 非 常 差 的 概率 
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模型 可 能 会 产生 非常 好 的 样本 。 验 证 模型 是 否 仅 复 制 一 些 训 练 示例 的 常见 做 法 如 
图 16.1 所 示 。 该 想法 是 根据 在 z 空间 中 的 欧 儿 里 得 距离 ， 为 一 些 生成 的 样本 显示 它 
们 在 训练 集中 的 最 近邻 。 此 测试 虽 在 检测 模型 过 拟 合 训练 集 并 仅 再 现 训练 实例 的 情 
况 。 甚 至 可 能 同时 欠 拟 合 和 过 拟 合 ， 但 仍然 能 产生 单独 看 起 来 好 的 样本 。 想 象 一 下 ， 
生成 模型 用 狗 和 猫 的 图 像 训练 时 ， 但 只 是 简单 地 学 习 来 重 现 狗 的 训练 图 像 。 这 样 的 
模型 明显 过 拟 合 ， 因 为 它 不 能 产生 不 在 训练 集中 的 图 像 ， 但 是 它 也 欠 拟 合 ， 因 为 它 
不 给 猫 的 训练 图 像 分 配 概率 。 然 而 ， 人 类 观察 者 将 判断 狗 的 每 个 个 体 图 像 都 是 高 质 
量 的 。 在 这 个 简单 的 例子 中 ， 对 于 能 够 检查 许多 样本 的 人 类 观察 者 来 说 ， 确 定 猫 的 
不 存在 是 容易 的 。 在 更 实际 的 设 定 中 ,在 具有 数 万 个 模式 的 数据 上 训练 后 的 生成 模 
型 可 以 忽略 少数 模式 ， 并 且 人 类 观察 者 不 能 容易 地 检查 或 记 住 足够 的 图 像 以 检测 丢 
失 的 变化 。 

由 于 样本 的 视觉 质量 不 是 可 靠 的 标准 ， 所 以 当 计算 可 行 时 ， 我 们 通常 还 评估 模 
型 分 配给 测试 数据 的 对 数 似 然 。 不 笠 的 是 ， 在 某 些 情况 下 ， 似 然 性 似乎 不 可 能 测量 
我 们 真正 关心 的 模型 的 任何 属性 。 例 如 ，MNIST 的 实 值 模型 可 以 将 任意 低 的 方差 
分 配给 从 不 改变 的 背景 像素 ， 获 得 任意 高 的 似 然 。 即 使 这 不 是 一 个 非常 有 用 的 事情 ， 
检测 这 些 常 量 特征 的 模型 和 算法 可 以 获得 无 限 的 奖励 。 实 现 接 近 负 无 穷 代价 的 可 能 
性 存在 于 任何 实 值 的 最 大 似 然 问 题 中 ,但 是 对 于 MNIST 的 生成 模型 问题 尤为 严重 ， 
因为 许多 输出 值 是 不 需要 预测 的 。 这 强烈 地 表明 需要 开发 评估 生成 模型 的 其 他 方法 。 

Theis et al. (2015) 回顾 了 评估 生成 模型 所 涉及 的 许多 问题 ， 包 括 上 述 的 许多 想 
法 。 他 们 强调 了 生成 模型 有 许多 不 同 的 用 途 ， 并 且 指 标的 选择 必须 与 模型 的 预期 用 
途 相 匹配 。 例 如 ， 一 些 生成 模型 更 好 地 为 大 多 数 真 实 的 点 分 配 高 概率 ， 而 其 他 生成 
模型 擅长 于 不 将 高 概率 分 配给 不 真实 的 点 。 这 些 差 异 可 能 源 于 生成 模型 是 设计 为 最 
小 化 DkL(paatallpmoaal) 还 是 Drr(puoaslllpaata)， 如 图 3.6 所 示 。 不 幸 的 是 ， 即 使 我 
们 将 每 个 指标 的 使 用 限制 在 最 适合 的 任务 上 ， 目 前 使 用 的 所 有 指标 仍 存在 严重 的 缺 
陷 。 因 此 ， 生 成 式 建 模 中 最 重要 的 研究 课题 之 一 不 仅仅 是 如 何 提升 生成 模型 ， 事 实 
上 还 包括 了 设计 新 的 技术 来 衡量 我 们 的 进步 。 












































20.15 ”结论 


为 了 让 模型 理解 表示 在 给 定 训 练 数据 中 的 大 千 世 界 ， 训 练 具有 隐藏 单元 的 生成 
模型 是 一 种 有 力 方法 。 通 过 学 习 模 型 paoaa(z) 和 表示 piwoaa(h | x)， 生 成 模型 可 以 
解答 z 输入 变量 之 间 关系 的 许多 推断 问题 ,并且 可 以 在 层次 的 不 同 层 对 h 求 期 望 来 
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提供 表示 z 的 许多 不 同方 式 。 生 成 模型 承诺 为 AI 系统 提供 它们 需要 理解 的 、 所 有 
不 同 直 观 概 念 的 框架 ， 让 它们 有 能 力 在 面 对 不 确定 性 的 情况 下 推理 这 些 概念 。 我 们 
希望 我 们 的 读者 能 够 找到 增强 这 些 方法 的 新 途径 ， 并 继续 探究 学 习 和 智能 背后 原理 
的 旅程 。 
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近似 贝 叶 斯 计算 approximate Bayesian computation 610 

近似 推断 approximate inference 489, 496, 498, 538-541, 555-557 

2844) architecture 170 


ATRE artificial intelligence 1-4, 6-10, 16, 17, 21, 47, 48, 136, 138, 141, 278, 361, 376, 384, 
410, 415, 443, 461, 470, 471, 475, 613 


人 工 神经 网 络 artificial neural network 12, 13, 20, 21, 376 


渐 近 无 偏 asymptotically unbiased 109 
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异步 随机 梯度 下 降 Asynchoronous Stochastic Gradient Descent 379 
异步 asynchronous 239 

EBA attention mechanism 312, 338, 357, 381, 382, 403, 404, 595 
属性 attribute 410 


自 编码 器 autoencoder xv, 4, 20, 21, 168, 232, 233, 244, 259, 292, 300-302, 321, 372, 419, 424, 
425, 427-441, 444-447, 449, 451, 452, 463, 473, 513, 520, 527, 550, 557, 594, 595, 600, 
605-607 


自动 微分 automatic differentiation 191 
自动 语音 识别 Automatic Speech Recognition 389, 390 


自 回归 网 络 auto-regressive network 591, 601, 602, 604, 605 


反 向 传播 back propagate 424 

反 向 传播 back propagation 147, 175, 405, 428, 529, 559, 574-576, 584-587, 591, 593-595, 609 
回 退 back-off 477 

反 向 传播 backprop 153, 175, 181, 182, 185, 187, 188, 383, 384 

通过 时 间 反 向 传播 back-propagation through time 325-327, 585 

反 向 传播 backward propagation 256-258, 270, 325, 327, 328, 344-346, 353, 354, 357 
词 袋 bag of words 400 

Bagging bootstrap aggregating 219-222, 224, 228 

bandit bandit 408 

批量 batch vii, 236-238, 250-252, 255, 260, 272 

批 标 准 化 batch normalization 229, 270-272, 361, 454, 455 

贝 叶 斯 误差 Bayes error 102, 103, 359 

贝 叶 斯 规则 Bayes’ rule 63, 64, 119, 462, 464, 534 

贝 叶 斯 推断 Bayesian inference 87, 121, 122, 449 

贝 叶 斯 网 络 Bayesian network 479, 482, 495, 565 

贝 叶 斯 概率 Bayesian probability 49 

贝 叶 斯 统计 Bayesian statistics 118 

基准 bechmark 106, 359 

信念 网 络 belief network 21, 479, 591, 602 

Bernoulli 4% Bernoulli distribution 56, 61, 157-159, 368, 434, 547, 569, 572, 592 
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基准 baseline 361, 362, 374 
BFGS BFGS 269 


偏 置 bias in affine function 96, 198, 201, 242, 256, 259, 325, 333, 349-353, 370, 395, 407, 545, 
546, 558, 563, 564, 566, 570, 571, 574, 578, 579, 581, 584 


偏差 bias in statistics 196, 197, 264, 399 

Alfa biased 239, 247 

有 偏重 要 采样 biased importance sampling 399, 504 
偏差 biass 114 

二 元 语法 bigram 392, 399 

二 元 关系 binary relation 409 

二 值 稀疏 编码 binary sparse coding 545-550 

比特 bit 66 

块 坐 标 下 降 block coordinate descent 273 

块 吉 布 斯 采样 block Gibbs Sampling 499, 509, 562 
EREA Boltzmann distribution 484 


玻 尔 兹 曼 机 Boltzmann Machine 247, 259, 292, 484, 485, 499, 512, 519, 558-560, 566, 570, 574, 
575, 577, 578, 583-585, 595, 606 


Boosting Boosting 221, 228 

桥 式 采样 bridge sampling 532, 535, 536 

J-#§ broadcasting 29 

磨合 Burning-in 508, 517-519, 521, 522, 570, 572 


变 分 法 calculus of variations 155, 543, 544, 550, 553, 554 


容量 capacity 98, 99, 101, 104, 106, 114, 214, 221, 236, 358, 363-366, 380, 381, 393, 400, 401, 
429, 430, 432, 433, 435, 439, 440, 469, 522, 527 


级 联 cascade 381, 383 

灾难 遗忘 catastrophic forgetting 167 
范畴 分 布 categorical distribution 56, 368 
因果 因子 causal factor 465, 469, 471, 472 
因果 模型 causal modeling 53 

中 心 差分 centered difference 372 
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中 心 极限 定理 central limit theorem 58, 503 

链 式 法 则 chain rule 53, 76, 524 

混沌 chaos 257 

3% chord 491, 492 

弦 图 chordal graph 492 

梯度 截断 clip gradient 164 

截断 梯度 clipping the gradient 352 

clique 481-485, 490-493, 495, 496, 538, 542, 564 

团 势 能 clique potential 481, 483, 484 

闭 式 解 closed form solution 205, 419, 421 

级 联 coalesced 378, 382 

编码 code 428-430, 432-434, 444, 446, 447 

协同 过 滤 collaborative filtering 406, 407 

列 column 28 

列 空间 column space 33 

共 因 common cause 488 

完全 图 complete graph 490 

复杂 细胞 complex cell 311 

计算 图 computational graph 176, 246, 319-321, 327-329, 340, 354, 497, 575, 595, 602 
计算 机 视觉 Computer Vision 217, 362, 376, 383-385, 388, 420, 469 
概念 漂移 concept drift 456, 457 

条 件 计算 conditional computation 381 

条 件 概率 conditional probability 52, 53, 64, 69, 523 

条 件 独立 的 conditionally independent 53, 417, 480, 486, 487, 491 
#4 conjugate 267 

LARA I] conjugate directions 266 

HAME conjugate gradient 266-269 

联结 主义 connectionism 12, 13, 15, 16, 19, 376, 558 

—BU consistency 114 

约束 优化 constrained optimization 82, 83, 85, 219, 484 
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特定 环境 下 的 独立 context-specific independences 487 

contextual bandit contextual bandit 408, 409 

延 拓 法 continuation method 277, 278 

收缩 contractive 345, 444-446 

收缩 自 编码 器 contractive autoencoder 433, 437, 439, 441, 444, 445, 605, 606 


对 比 散 度 contrastive divergence 247, 437, 518-522, 526, 528, 563, 564, 570, 573, 574, 579-581, 
585, 607 


凸 优化 Convex optimization 82, 240-242, 260, 273 
卷 积 convolution 280, 281, 449, 498 

卷 积 玻 尔 兹 曼 机 Convolutional Boltzmann Machine 292 
卷 积 玻 尔 兹 曼 机 convolutional Boltzmann machine 583 
卷 积 网 络 convolutional net 471 


卷 积 网 络 convolutional network 20, 21, 144, 174, 241, 245, 280, 281, 284, 286, 287, 289, 292-296, 
298, 300, 301, 303, 305-313, 316-318, 336, 337, 359, 361, 362, 374, 378, 390, 394, 401, 402, 
407, 455, 468, 469, 582, 583, 593, 600, 603 


卷 积 神经 网 络 convolutional neural network 145, 217, 228, 280, 283, 284, 289, 294, 305 
坐标 上 升 coordinate ascent 540, 542, 571 

坐标 下 降 coordinate descent 273 

HEX coparent 538, 546 

相关 系数 correlation 55 

代价 cost 119, 134, 242-245, 247, 251, 256, 359, 360, 364, 369, 454, 505 


代价 函数 cost function 26, 74, 76, 78, 87, 104, 115, 116, 132-134, 152, 200, 202, 203, 207, 208, 
213, 214, 230, 234-236, 241-248, 250, 251, 254, 268, 270, 271, 273, 274, 277, 278, 352, 359, 
364, 374, 412, 420, 422, 432, 436, 437, 452, 464, 505, 523, 574, 587, 600 


协 方 差 covariance 54, 55, 60, 201, 219, 426 

协 方差 矩阵 covariance matrix 55, 58, 60, 417, 426 
协 方差 RBM covariance RBM 579, 580 

覆盖 coverage 360, 374 


准则 criterion 74, 209, 250, 253, 255, 261-264, 266, 268, 321, 326, 344, 400, 434, 436-438, 445, 
446, 574, 585, 593, 595, 607, 609 


临界 点 critical point 74-77, 79-82, 241-244, 248, 249, 265, 452, 550, 552 
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临界 温度 critical temperatures 513 

互相 关 函 数 cross-correlation 282 

32 345 cross-entropy 68, 116, 153-156, 188, 189, 191, 194, 329, 332, 395, 396 
累积 函数 cumulative function 503 

课程 学 习 curriculum learning 278, 279, 326 

维 数 灾难 curse of dimensionality 135, 136, 138, 393, 394, 467, 472, 602 

曲率 curvature 78-81, 99, 200, 241, 252, 265 

控制 论 cybernetics 12, 13 


衰减 damping 550 

数据 生成 分 布 data generating distribution 97, 235, 239, 240, 250 
数据 生成 过 程 data generating process 97, 448 

数据 并 行 data parallelism 379 

数据 点 data point 92 


683 


BUR dataset 87, 92-95, 97, 98, 101, 104, 106, 107, 113-115, 118, 119, 125, 128, 131, 133, 134, 


141 
数据 集 增 强 dataset augmentation 385, 388 
决策 树 decision tree 125, 127, 381-383, 465 





解码 器 decoder 4, 337, 338, 401-403, 416, 419, 420, 422-426, 428-430, 433-435, 438-440, 446, 


468, 594 
分 解 decompose 38 


深度 信念 网 络 deep belief network 17, 21, 309, 451, 471, 519, 535, 537, 561, 563-565, 567, 568, 


571, 583, 590, 608 


深度 玻 尔 兹 曼 机 Deep Boltzmann Machine xiv, 20, 21, 451, 512, 519, 522, 525, 526, 537, 538, 


550, 556, 561, 563, 565-576, 583, 608 
深度 回路 deep circuit 471 
深度 前 馈 网 络 deep feedforward network 145, 147, 390, 416, 427 
深度 生成 模型 deep generative model 451 


深度 学 习 deep learning 1, 4, 5, 7, 10-15, 17, 18, 22-24, 26, 73, 74, 76, 79, 82, 87-89, 92, 93, 
100, 105, 125, 128, 132, 133, 135-138, 141, 144, 196, 197, 209-211, 229, 234, 236, 238, 
247, 250, 255, 260, 261, 265, 268, 269, 274, 344, 357, 361, 363, 370, 373, 376, 378, 380, 
382-385, 389-391, 406, 407, 409, 411, 414, 415, 443, 447, 455, 457, 461, 465, 471, 473-475, 


483, 495-498, 500, 505, 506, 509, 515, 517, 520, 525, 537, 538, 541, 542, 554 
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深度 模型 deep model 93, 234, 235, 240, 242, 244, 256, 262, 276, 451, 521, 525 
深度 网 络 deep network 144, 210, 257, 271, 277, 470 

信任 度 degree of belief 49 

去 品 denoising 90, 92, 432, 436, 437, 439, 444, 475, 527 


去 噪 自 编 码 器 denoising autoencoder xv, 206, 432, 433, 435-439, 441, 444, 453, 456, 587, 605- 
610 


去 噪 得 分 匹配 denoising score matching 437, 527 

依赖 dependency 473, 475, 487, 491, 495 

深度 depth 145 

导数 derivative 74, 76, 77, 81, 86 

描述 description 70 

设计 和 矩阵 design matrix 93-95, 129 

细致 平衡 detailed balance 607 

探测 级 detector stage 289 

确定 性 deterministic 237 

对 角 和 矩阵 diagonal matrix 36 

Ki differential entropy 67, 551 

PAA differential equation 254 

降 维 dimensionality reduction 405, 428, 447 

Dirac delta 函数 Dirac delta function 59 

Dirac 分 布 dirac distribution 59, 60, 527, 541, 542, 552, 553 
有 向 directed 69 

有 向 图 模型 directed graphical model 330, 333, 417, 461, 479-481, 490, 493, 494, 590, 602 
有 向 模型 Directed Model 480, 481, 484, 487, 489-491, 494, 506, 537, 556, 564, 565, 593 
方向 导数 directional derivative 76, 77 

判别 RBM discriminative RBM 452 

判别 器 网 络 discriminator network 596 


分 布 式 表 示 distributed representation 16, 138, 227, 393-395, 403, 405-407, 409-411, 443, 448, 
458, 465-470, 472, 497, 498 


深度 神经 网 络 DNN 246, 260, 261, 264, 270, 272, 380, 383, 390, 449-452, 470, 565 
领域 自 适 应 domain adaption 456 
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点 积 dot product 30, 35, 123, 124 

双 反 向 传播 double backprop 232, 473 

双重 分 块 循环 矩阵 doubly block circulant matrix 283, 306 
降 采 样 downsampling 292, 297 


Dropout Dropout 207, 221-229, 251, 256, 361, 363, 365, 366, 380, 382, 390, 454, 455, 573, 575, 
587, 599 


Dropout Boosting Dropout Boosting 227, 228 
d- 分 离 d-separation 487, 489 
动态 规划 dynamic programming 187 


动态 结构 dynamic structure 381, 382 


提前 终止 early stopping 211-216, 236, 257, 361, 453, 454 
回声 状态 网 络 echo state network 21, 344-347 

有 效 容量 effective capacity 100 

特征 分 解 eigendecomposition 37-39 

特征 值 eigenvalue 37 

特征 向 量 eigenvector 37 

基本 单位 向 量 elementary basis vectors 484 

元 素 对 应 乘积 element-wise product 30 

HRA. embedding 441, 442 

经 验 分 布 empirical distribution 59, 60, 235, 237, 527 

经 验 频率 empirical frequency 59 

经 验 风险 empirical risk 235 

经 验 风 险 最 小 化 empirical risk minimization 235, 236 


编码 器 encoder 4, 337, 338, 401-403, 420, 423-426, 428-431, 433-439, 441, 442, 444, 446, 450, 
557, 594, 595 





端 到 端的 end-to-end 358, 361, 362, 373, 391, 495 
AE= AA energy function 484, 485, 498, 499, 510, 517, 558-560, 565, 566, 574, 577-582, 585 


基于 能 量 的 模型 Energy-based model 484—486, 498, 505, 506, 509, 510, 512, 513, 558, 560, 565, 
582 


集成 ensemble 196, 219-222, 224-226, 228, 380, 401, 449 
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集成 学 习 ensemble learning 419 
轮 epoch 241, 373 
轮 数 epochs 212 
等 式 约束 equality constraint 83, 84 
均衡 分 布 Equilibrium Distribution 507, 508 
变 equivariance 285 
等 变 表 示 equivariant representations 284 
误差 条 error bar 103 
误差 函数 error function 74 
误差 度量 error metric 358, 359 
错误 率 error rate 91, 359, 360, 365 
估计 量 estimator 108-115, 196, 455, 467, 519, 522 
欧 几 里 得 范 数 Euclidean norm 34 
欧 拉 - 拉 格 朗 日 方程 Euler-Lagrange Equation 551 
证 据 下 界 evidence lower bound 538, 539, 542, 543, 547, 564 


样本 example 13, 23, 88, 90-95, 97, 99, 100, 102, 106, 107, 109, 110, 112-119, 123-125, 128, 
129, 131-133, 135-138, 141, 209 


额外 误差 excess error 251, 255 

HAS expectation 54, 56 

期 望 最 大 化 expectation maximization 418, 540-543, 594 
E 4 expectation step 540 

期 望 值 expected value 54 

经 验 experience, E 87, 88, 92, 94, 95 

专家 网 络 expert network 382 

相 消 解释 explaining away 537, 549, 564 

相 消 解释 作用 explaining away effect 488 

解释 因子 explanatory factort 462, 470, 472, 473 
梯度 爆炸 exploding gradient 247 

开发 exploitation 408, 409 

探索 exploration 408, 409 
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指数 分 布 exponential distribution 58 


因子 factor 481-483, 485, 492, 493, 558, 584 

因子 分 析 factor analysis 417, 419, 425 

因子 图 factor graph 492, 493 

因子 factorial 416, 424, 425, 500, 543, 550, 561, 562, 567, 568 
分 解 factorization 69, 70 

分 解 的 factorized 473 

变 差 因素 factors of variation 4, 6, 173, 469, 471, 472 

快速 Dropout fast dropout 227 

快速 持续 性 对 比 散 度 fast persistent contrastive divergence 523 
可 行 feasible 83, 84, 86 

特征 feature 88, 92-96, 98, 99, 104, 123-125, 128-131 

特征 提取 器 feature extractor 421, 424, 452, 468, 542 

特征 映射 feature map 281, 388 

特征 选择 feature selection 203 

反馈 feedback 145 

前 向 feedforward 145 

前 馈 分 类 器 feedforward classifier 463 


前 馈 网 络 feedforward network 145-150, 156, 168, 169, 171, 173, 193-195, 244, 246, 247, 258, 
275, 318, 320, 329, 333, 336, 343, 346, 360, 361, 428, 431, 433, 434, 436, 448, 449, 463, 
464, 471, 473, 592 


前 馈 神经 网 络 feedforward neural network 145-148, 151, 153, 165, 171, 175, 245, 433 
现场 可 编程 门 阵列 field programmable gated array 383 

#814) fine-tune 450, 451, 454, 519 

精 调 fine-tuning 274, 275, 424, 564 

有 限 差分 finite difference 372 

第 一 层 first layer 145 

不 动 点 方程 fixed point equation 544, 548, 549, 553, 555, 556, 568, 571 

定点 运算 fixed-point arithmetic 377 


翻转 flip 282 


ww ai bbt.com DOO00000 


dourbz/350DFo 


688 术语 


浮 点 运算 float-point arithmetic 377 
遗忘 门 forget gate 349-351 
前 向 模式 累加 forward mode accumulation 192 


前 向 传播 forward propagation 175, 182, 183, 256-258, 284, 300, 301, 308, 324, 325, 337, 345, 
348 


傅立叶 变换 Fourier transform 307, 308 
HAE] fovea 312 
自由 能 free energy 486 
频率 派 概率 frequentist probability 49 
频率 派 统 计 frequentist statistics 118 
Frobenius 范 数 Frobenius norm 35, 41, 44, 45 
F 分 数 F-score 360 
全 full 296 

Z functional 155, 550-554 


泛 函 导数 functional derivative 550-553 


Gabor 函数 Gabor function 313-316 
Gamma 分 布 Gamma distribution 580 
门 控 gated 348-351, 354 
门 控 循 环 网 络 gated recurrent net 361 
门 控 循环 单元 gated recurrent unit 348, 350, 361 
门 控 RNN gated RNN 348, 350 
选 通 器 gater 382 


高 斯 分 布 Gaussian distribution xx, 57, 58, 60, 68, 154, 156, 162, 164, 294, 417, 425, 553, 554, 
577, 579, 580, 586, 587, 594, 599, 601 


斯 核 Gaussian kernel 124, 465 


高 斯 混合 模型 Gaussian Mixture Model 60, 61, 389, 390, 495 
高 斯 混合 体 Gaussian mixtures 465 

高 斯 输出 分 布 Gaussian output distribution 155 

高 斯 RBM Gaussian RBM 578-580 

Gaussian-Bernoulli RBM Gaussian-Bernoulli RBM xiv，577-579 
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通用 GPU general purpose GPU 378 


泛 化 generalization 97, 99, 136, 137, 146-149, 151, 171, 174, 194, 196, 197, 256, 276, 363, 380, 
385, 388, 424, 456-458, 464, 467, 468, 471 


泛 化 误差 generalization error 97, 100-102, 114, 235, 238-240, 249, 251, 256, 258, 260, 361, 
363-366, 424 


泛 化 generalize 256, 456-458, 467-469, 472, 591, 602, 605 

广义 函数 generalized function 59 

广义 Lagrange 函数 generalized Lagrange function 83, 84, 203 

广义 Lagrangian generalized Lagrangian 83, 85 

广义 伪 似 然 generalized pseudolikelihood 524, 525, 575 

广义 伪 似 然 估 计 generalized pseudolikelihood estimator 524 

广义 得 分 匹配 generalized score matching 526, 527 

生成 式 对 抗 框架 generative adversarial framework 464 

生成 式 对 抗 网 络 generative adversarial network 463, 464, 512, 530, 591, 596-600 


生成 模型 generative model 384, 416, 418, 419, 421, 424, 425, 427, 430-432, 439, 452, 463, 464, 
469, 470, 497, 512, 514, 530, 536, 556-558, 563-565, 584, 586, 590, 591, 593, 595, 599, 
610-613 


生成 式 建 模 generative modeling 593, 594, 596, 601, 609-612 
生成 矩 匹配 网 络 generative moment matching network 599, 600 
生成 随机 网 络 generative stochastic network xv, 430, 606-610 
生成 器 网 络 generator network 591-594, 596, 598-600 

吉 布 斯 分 布 Gibbs distribution 483 


Gibbs 采样 Gibbs Sampling 494, 498-500, 509-512, 514, 521, 526, 564, 567, 569, 572, 575, 580, 
581 


HAMA Gibbs steps 518, 520, 522, 572 

全 局 对 比 度 归 一 化 Global contrast normalization 386-388 
全 局 极 小 值 global minima 244, 245 

全 局 最 小 点 global minimum 75, 76, 82, 85, 242, 243, 248, 278 


梯度 gradient 76-78, 82, 83, 85, 86, 198-200, 202, 204, 213, 214, 322, 325-329, 342, 343, 345, 
346, 348, 351-357, 437, 438 


梯度 上 升 gradient ascent 547 
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梯度 截断 gradient clipping 245, 247, 257, 353, 354 


梯度 下 降 gradient descent 74, 75, 77-83, 85, 123, 132-134, 204, 205, 214, 221, 236, 237, 241, 
244-246, 248, 250-254, 257, 258, 265, 271-273, 353, 364, 370, 379, 380, 404, 420, 428, 436, 
446, 452, 469, 510, 540, 544, 548, 576, 588, 593 


图 模型 graphical model 69, 330-333, 395, 474, 475, 478, 480, 486, 487, 490, 493-498, 500, 537, 
542, 543, 549, 550, 553, 558, 560, 561, 565, 566, 590, 602 


图 形 处 理 器 Graphics Processing Unit 238, 377-379, 382, 383 

贪心 greedy 450, 451 

贪心 算法 greedy algorithm 274, 450 

贪心 逐 层 预 训 练 greedy layer-wise pretraining 309, 571, 574, 575 
贪心 逐 层 训 练 greedy layer-wise training 571 

贪心 逐 层 无 监督 预 训练 greedy layer-wise unsupervised pretraining 449-451 
贪心 监督 预 训练 greedy supervised pretraining 274, 275 

贪心 无 监督 预 训练 greedy unsupervised pretraining 451, 573 


网 格 搜索 grid search 367-369 


Hadamard 乘积 Hadamard product xix, 30 
汉 明 距离 Hamming distance 527 

硬 专家 混合 体 hard mixture of experts 382 
硬 双 曲 正切 函数 hard tanh 170 

SM harmonium 498, 560 

harmony harmony 485 

哈里 斯 链 Harris Chain 508 

Helmholtz 机 Helmholtz machine 430, 591 


Hessian Hessian xix, 78-82, 199, 200, 202, 203, 214, 238, 241, 243, 245, 247, 252, 265-267, 269, 
270, 278, 351, 452, 453, 574 


AF heteroscedastic 162 


隐藏 层 hidden layer 5, 13, 146-148, 150, 165, 170-172, 184, 188, 190, 195, 223, 270, 271, 274- 
277, 300, 323, 428, 433, 439, 445, 447, 448, 470, 471, 526, 537, 560-570, 572, 579, 590, 
603, 605, 609 


隐 马 尔 可 夫 模 型 Hidden Markov Model 389-391 
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隐藏 单元 hidden unit vi, 5, 15, 16, 20, 21, 148, 154, 156, 165, 166, 168-172, 175, 190, 194, 
205-207, 210, 214, 217, 219, 221-223, 225, 228, 229, 242, 256, 259, 272, 294, 299, 320, 
322-326, 328, 331, 333, 334, 338, 344, 347-349, 351, 362, 364-367, 373, 381, 382, 386, 404, 
420, 433, 436, 444, 445, 465, 468-471, 491, 495, 498, 499, 509, 516, 519, 521, 526, 538, 
540, 542, 545, 546, 549, 559-561, 564-570, 574, 577-581, 583-585, 591, 593, 601, 603-605, 
612 


隐藏 变量 hidden variable 525, 537 

Mew) hill climbing 77 

超 参 数 hyperparameter 252, 253, 258, 260-263, 358, 362-370, 374, 454 
超 参 数 优化 hyperparameter optimization 367 


假设 空间 hypothesis space 98 


同 分 布 的 identically distributed 97 

可 辨认 的 identifiable 242 

单位 矩阵 identity matrix xvii, 31 

独立 同 分 布 假设 iid. assumption 97 

病态 ill conditioning 241 

不 道德 immorality 490, 491 

重要 采样 Importance Sampling 399, 400, 503-505, 531-535, 591, 595 
相互 独立 的 independent 53, 97 

独立 成 分 分 析 independent component analysis 417-421 
独立 同 分 布 independent identically distributed 502, 530 
独立 子 空间 分 析 independent subspace analysis 420 

索引 index of matrix 27, 28 

指示 函数 indicator function 58 

不 等 式 约束 inequality constraint 83-85 


推断 inference xiv, 2, 207, 224, 226-228, 392, 393, 414, 430, 431, 496, 541, 558, 559, 564, 
566-570, 572-576, 581, 585, 591-595, 597, 599, 604, 605, 612 


无 限 infinite 455 
信息 检索 information retrieval 447 
内 积 inner product 123 


输入 input 281, 452 
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输入 分 布 input distribution 452, 453, 456 
干预 查询 intervention query 53 
Rae invariant 290 
K invert 578 
Isomap Isomap 455 


各 向 同性 isotropic 58, 61 


Jacobian Jacobian xix, 77, 78, 176, 178, 180, 183, 185, 186, 232, 277, 328, 342, 344, 345, 372, 
420, 444, 445 


Jacobian 和 矩阵 Jacobian matrix 65, 178, 191, 192 


联合 概率 分 布 joint probability distribution 50, 52, 53, 69, 558-560, 565 


Karush-Kuhn-Tucker Karush-Kuhn-Tucker 83-85, 203, 205 
核 函 数 kernel function 123, 281 

核 机 器 kernel machine 124, 125, 146, 209, 344, 465, 563 

核 方法 kernel method 124 

#24215 kernel trick 123, 124, 133, 146 

KL 散 度 KL divergence 116, 218, 538, 544 

知识 库 knowledge base 2, 410, 411 

知识 图 谱 knowledge graph 411 

Krylov 方法 Krylov method 193 

KL #Æ Kullback-Leibler (KL) divergence xx, 67, 68 


标签 label 92, 94, 124, 136, 452, 458, 469, 471 

标注 labeled 362, 363, 374, 449, 453, 455, 457, 458, 460, 461 

拉 格 朗 日 乘 子 Lagrange multiplier 551, 552 

语言 模型 language model 354, 391-393, 401, 402, 405, 409, 505 

Laplace 437 Laplace distribution 58 

大 学 习 步 又 large learning step 543 

潜在 latent 163, 417, 418, 425, 430, 450, 462, 495, 521, 559, 560, 596, 598, 601, 608 
潜 层 latent layer 560 
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潜 变 量 latent variable xiii, 60, 163, 242, 395, 416-418, 428, 430-432, 434, 451, 461, 465, 471, 
485, 486, 495-498, 500, 511, 513, 516, 520, 526, 537, 538, 540, 541, 543, 544, 547, 553, 
559-561, 563-566, 575, 591, 593-595, 606, 608 


大 数 定理 Law of large number 502 

逐 层 的 layer-wise 450 

L-BFGS L-BFGS 269, 270 

渗 漏 整流 线性 单元 Leaky ReLU 166, 167, 361 

渗 漏 单元 leaky unit 346-348 

学 成 learned 449, 453, 457, 458, 464, 466, 469, 472, 473, 556, 557, 591 
学 习 近 似 推断 learned approximate inference 446 

学 习 器 learner 106, 138, 239, 456, 458, 462, 468, 471, 472 


学 习 率 learning rate 77, 79, 133, 234, 238, 241, 250, 251, 253, 255, 260-263, 265, 267, 270, 361, 
362, 364-367, 371, 522, 523, 572, 588, 590 


勒 贝 格 可 积 Lebesgue-integrable 516 

左 特征 向 量 left eigenvector 37 

左 奇异 向 量 left singular vector 40 

莱 布 尼 效 法 则 Leibniz’s rule 516 

似 然 likelihood 49 

线 搜索 line search 77, 83, 268 

线性 自 回 归 网 络 linear auto-regressive network 601 

线性 分 类 器 linear classifier 236, 427, 448, 452, 457, 466, 469 

线性 组 合 linear combination 33 

线性 相关 linear dependence 33 

线性 因子 模型 linear factor model 416, 417, 419, 420, 422, 424, 425, 427, 500, 542, 578 
线性 模型 linear model 14, 197, 202, 203, 205, 214, 227, 230, 559, 601 


线性 回归 linear regression 87, 94, 96-98, 100, 101, 104, 108, 117-119, 121-123, 133, 134, 197, 
199-202, 204, 205, 218, 227, 259, 344, 427, 543, 601 


线性 阀 值 单元 linear threshold units 468, 469 
线性 无 关 linearly independent 33 

链接 预测 link prediction 411 

链接 重要 采样 linked importance sampling 536 
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Lipschitz Lipschitz 82 

Lipschitz 常数 Lipschitz constant 82 

Lipschitz 连续 Lipschitz continuous 82 

流体 状态 机 liquid state machine 344 

局 部 条 件 概 率 分 布 local conditional probability distribution 479 
局 部 不 变性 先 验 local constancy prior 136 

局 部 对 比 度 归 一 化 local contrast normalization 387, 388 
局 部 下 降 local descent 249 

局 部 核 local kernel 137, 465 

局 部 极 大 值 local maxima 127, 244 

局 部 极 大 点 local maximum 74, 75, 79, 80, 243, 548 

局 部 极 小 值 local minima 242-244, 248, 278, 452 

局 部 极 小 点 local minimum 74-76, 79, 80, 82, 212, 213, 236, 242, 243, 248, 254, 452 
对 数 尺度 logarithmic scale 367, 368 


逻辑 回归 logistic regression 2, 6, 123, 146, 153, 155, 177, 197, 205, 230, 309, 361, 366, 396, 529, 
559, 599, 601 


logistic sigmoid logistic sigmoid vi, 61, 62, 122, 157, 159, 168, 171 

分 对 数 logit 63, 158 

对 数 线性 模型 log-linear model 485 

长 短期 记忆 long short-term memory ix, 16, 22, 259, 277, 348-352, 354, 355, 357, 361, 391 
长 期 依赖 long-term dependency 246, 340, 342-344, 346, 347, 350, 354 

环 loop 491, 492 

环 状 信念 传播 loopy belief propagation 497, 498 

损失 loss 91, 116, 132, 527, 575 


损失 函数 loss function 74, 107, 134, 218, 235, 236, 244, 247, 248, 252, 277, 324-326, 354, 364, 
395, 400, 421, 429, 430, 432, 434, 446, 584, 586, 601 


机 器 学 习 machine learning 2, 3, 7, 10, 12-18, 20, 24, 26, 72, 86-95, 97-100, 102, 104, 105, 108, 
112, 113, 118, 119, 123, 126, 132, 134, 135, 138, 139, 141, 196, 203, 205-207, 219-221, 231, 
233-236, 239, 240, 250, 251, 259, 278, 318, 352, 358-363, 370, 371, 373, 376, 377, 379-381, 
400, 406, 407, 409, 410, 428, 439, 442, 448, 452, 457, 472, 473, 475, 485, 489, 495, 497, 
501, 505, 517, 518, 541, 550, 551, 556 
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机 器 学 习 模 型 machine learning model 451 

机 器 翻译 machine translation 361, 458 

主 对 角 线 main diagonal 29 

流 形 manifold 139, 141, 142, 232, 425, 426, 437-445, 472, 473, 495, 510, 512, 596 

流 形 假设 manifold hypothesis 140 

流 形 学 习 manifold learning 139, 433, 441-443, 596 

边缘 概率 分 布 marginal probability distribution 52 

马尔 可 夫 链 Markov Chain xv, 505-513, 517-523, 526, 533, 565, 568, 570, 572, 606-609 


马尔 可 夫 链 蒙特 卡 罗 Markov Chain Monte Carlo 414, 503, 505, 506, 508, 510, 512, 517-519, 
523, 527, 533, 562, 568, 574, 605, 608-610 


马尔 可 夫 网 络 Markov network 481, 485, 495, 499 
马尔 可 夫 随 机 场 Markov random field 481, 485 

#845 mask 221-224, 227, 228 

和 矩阵 matrix 28 

ZERE% matrix inversion 31, 32 

和 矩阵 乘积 matrix product 29 

最 大 范 数 max norm 35 

池 pool 290, 292, 293 

最 大 池 化 max pooling 289-292, 300, 468, 601 

MAA maxima 243, 244 

M # maximization step 540, 541 

最 大 后 验 Maximum A Posteriori v, 121, 122, 203, 391, 431, 541-543, 557, 581 
最 大 似 然 maximum likelihood 419, 423, 515, 544, 545 


最 大 似 然 估计 maximum likelihood estimation 115-119, 121, 122, 134, 237, 392, 519, 524, 528, 
542, 544 


最 大 平均 偏差 maximum mean discrepancy 600 

maxout maxout 212, 242, 258, 277, 291, 316, 361 

maxout 单元 maxout unit 167, 172, 316, 364 

平均 绝对 误差 mean absolute error 156 

均值 和 协 方差 RBM mean and covariance RBM 579-582 

学 生 t 分 布 均值 乘积 mean product of Student t-distribution 579-582 


ww ai bbt. com DOO0000 


dourbz/350DFo 


696 术语 


均 方 误差 mean squared error 95, 96, 103, 104, 113, 116-118, 120, 129, 148, 154-156, 158, 194, 
344, 421, 429, 434, 436, 463, 464, 589, 594, 607 


均值 - 协 方差 RBM mean-covariance restricted Boltzmann machine 485 
均匀 场 meanfield 21, 567-569, 571-573, 575, 576, 583, 591, 595, 604 
均值 场 mean-field 543-550, 553, 556, 557 

测度 论 measure theory 64 

零 测 度 measure zero 64 

记忆 网 络 memory network 355, 357, 411 

信息 传输 message passing 550 


小 批量 minibatch vii, 132, 183, 188, 190, 220-222, 236-240, 247, 250-253, 255, 258, 260-264, 
269, 271, 319, 352, 353, 373, 379, 382, 428, 435, 452, 501, 508, 518, 520, 522, 540, 572, 576 


小 批量 随机 minibatch stochastic 238 

极 小 值 minima 244, 248 

极 小 点 minimum 249, 250, 552 

混合 Mixing 510-514, 520-523 

混合 时 间 Mixing Time 508, 509 

混合 密度 网 络 mixture density network 163 


=| 
/ 比 


合 分 布 mixture distribution 59 

专家 混合 体 mixture of experts 382, 465 

模 态 modality 459 

峰值 mode xiii, 510-514, 519, 521-523, 550 

模型 model 451 

模型 平均 model averaging 219-221 

模型 压缩 model compression 380 

模型 可 辨识 性 model identifiability 242 

模型 并 行 model parallelism 379 

468 moment 599, 600, 610 

和 矩 匹 配 moment matching 599, 610 

动量 momentum 252-255, 260, 262, 263, 276, 361 
蒙特 卡 罗 Monte Carlo 226, 399, 501-503, 505, 514, 517, 523, 531, 556, 580, 588, 594 


Moore-Penrose 伪 逆 Moore-Penrose pseudoinverse xix, 41, 99, 105 
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道德 化 moralization 490, 491 
道德 图 moralized graph 490, 491 


多 层 感知 机 multilayer perceptron 5, 20, 21, 145, 187-189, 194, 274, 275, 297, 339, 340, 402, 439, 
470, 559, 564, 565, 567, 568, 573, 574, 585 


多 峰值 multimodal 532, 549, 610 

多 模 态 学 习 multimodal learning 459 

多 项 式 分 布 multinomial distribution 56 

Multinoulli 分 布 multinoulli distribution 56, 59, 60, 73, 159, 163 

多 预测 深度 玻 尔 兹 曼 机 multi-prediction deep Boltzmann machine 574-576, 595, 606 
多 任务 学 习 multitask learning 209, 210, 456, 457 

多 维 正 态 分 布 multivariate normal distribution 58, 417, 511 


朴素 贝 叶 斯 naive Bayes 2 

奈 特 nats 66 

自然 语言 处 理 Natural Language Processing 245, 362, 376, 391, 394, 395, 405, 406, 409, 454 
最 近邻 nearest neighbor 137, 449, 465-467 

最 近邻 图 nearest neighbor graph 442 

最 近邻 回归 nearest neighbor regression 101, 125 

JE negative definite 38 

负 部 函数 negative part function 63 

负 相 negative phase 516-519, 521-523, 525, 526, 556, 560, 570, 571 

半 负 定 negative semidefinite 38 

Nesterov 动量 Nesterov momentum 255 

网 络 network 145 

神经 自 回归 密度 估计 器 neural auto-regressive density estimator xiv, 601, 603-605 
神经 自 回 归 网 络 neural auto-regressive network 602-605 

神经 语言 模型 Neural Language Model 393, 395, 396, 398, 400, 401, 405, 410 
神经 机 器 翻译 Neural Machine Translation 394 





神经 网 络 neural network 12-17, 19-23, 196-198, 204-206, 214, 217, 220, 221, 223, 224, 228-231, 
233, 234, 240-249, 256, 257, 260, 261, 265, 266, 268, 269, 272-274, 276-279, 318, 340, 348, 
355, 357, 376-378, 383, 386, 389-391, 394, 395, 400, 401, 404, 405, 407, 410, 428, 443, 446, 
451-454, 465, 469, 505, 555, 586 
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神经 网 络 图 灵机 neural Turing machine 355, 356 

牛顿 法 Newton’s method 81, 82, 85, 241, 242, 244, 249, 265-267, 269, 273 
n-gram n-gram 392, 393, 395, 396, 400-402, 466, 477 

没有 免费 午餐 定理 no free lunch theorem 102, 105, 471 

噪声 noise 101, 140, 238, 247, 252, 278, 361, 362, 452, 527-530 

噪声 分 布 noise distribution 528-530 

噪声 对 比 估计 noise-contrastive estimation 528-530 

非 凸 nonconvex 240, 242-245, 261, 265, 274, 278 

非 分 布 式 nondistributed 466-468 

非 分 布 式 表示 nondistributed representation 465-467 

非 线 性 共 力 梯度 nonlinear conjugate gradients 268, 269 

非 线性 独立 成 分 估计 nonlinear independent components estimation 419, 420 
非 参 数 non-parametric 100, 393, 441-443 

范 数 norm 34 

正 态 分 布 normal distribution 57, 58, 61, 503, 552 

正规 方程 normal equation 96, 98, 99, 133, 148 

归 一 化 的 normalized 51 

标准 初始 化 normalized initialization 257 

数值 numeric value 182 


数值 优化 numerical optimization 234, 241, 245 


对 象 识别 object recognition 245, 361, 363, 384, 388, 389, 422, 424, 458, 611 
目标 objective 454 


目标 函数 objective function 74, 77, 84, 196-201, 203, 204, 212, 213, 216, 220, 235-237, 240, 
245-247, 249, 251, 252, 264-266, 268, 273, 277, 278, 352, 358, 367, 373, 449, 469, 524, 526 
563, 571 


奥 卡 姆 剃刀 Occam’s razor 100 

one-hot one-hot 125, 131, 161, 193, 393, 394, 453, 454, 458, 465, 467, 585, 602 
一 次 学 习 one-shot learning 458 

在 线 online 237 

在 线 学 习 online learning 239 
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操作 operation 176 

最 佳 容量 optimal capacity 101, 103, 114 
原点 origin 33 

正 交 orthogonal 36 

正 交 和 矩阵 orthogonal matrix 37 
标准 正 交 orthonormal 36, 39 

输出 output 452 

输出 层 output layer 145 

过 完备 overcomplete 430, 433, 581, 582 
过 估计 overestimation 505 


WHA overfitting 98, 99, 105, 114, 196, 197, 214, 236, 240, 251, 257, 358, 362, 364, 365, 371, 
374, 380, 449, 453, 454, 477, 612 


过 拟 合 机 制 overfitting regime 101 


iit overflow 72, 73, 534 


并 行 分 布 式 处 理 Parallel Distributed Processing 194 
并 行 回 火 parallel tempering 513, 523, 536 

参数 parameter 94 

参数 服务 器 parameter server 380 


参数 共享 parameter sharing 217, 223, 224, 228, 284, 285, 287, 299, 312, 318, 319, 321, 322, 331, 
332, 401, 600, 601, 603 


有 参 情况 parametric case 118 
参数 化 整流 线性 单元 parametric ReLU 167, 361 
偏 导数 partial derivative 76, 77, 444, 550 


配 分 函数 Partition Function 414, 483, 485, 501, 505, 514, 515, 517, 518, 523, 524, 526-528, 
530-536, 556, 558-560, 563, 564, 570, 577, 582, 583, 597 


性 能 度量 performance measures 87, 88, 91, 95, 360, 361 

性 能 度量 performance metrics 358, 359, 361, 369, 371, 373, 374 

置换 不 变性 permutation invariant 295 

持续 性 对 比 散 度 persistent contrastive divergence 520, 522, 563, 571, 574, 580, 581 
BZ phoneme 389-391, 456 
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语音 phonetic 391 

分 段 piecewise 361 

点 估计 point estimator 108 

策略 policy 408, 409 

策略 梯度 policy gradient 382 

池 化 pooling 206, 228, 280, 286, 289-294, 298, 305, 308, 309, 311, 312, 385, 420 
池 化 函数 pooling function 289 

病态 条 件 poor conditioning 74, 81, 238, 241, 245, 247, 249, 252, 453 
IEX positive definite 38 

正 部 函数 positive part function 63 

正 相 positive phase 516-519, 522, 523, 556, 559, 570 

半 正 定 positive semidefinite 38 

后 验 概率 posterior probability 60 

PHA power method 247 

PR 曲线 PR curve 360 

精度 precision 57, 360, 372, 611 

精度 矩阵 precision matrix 58 

FRM LAK predictive sparse decomposition 446 

预 训练 pretraining 274-277, 390, 424, 450-455, 497, 520, 526 

初级 视觉 皮层 primary visual cortex 310 


主 成 分 分 析 principal components analysis xi, 42-44, 128-130, 134, 209, 234, 301, 387, 417-419, 
421, 423, 425-427, 429, 440, 445, 447 


先 验 概率 prior probability 60 

先 验 概率 分 布 prior probability distribution 118, 294 

概率 PCA probabilistic PCA 417-419, 425, 537, 538 

概率 密度 函数 probability density function 51, 57-59, 64, 502, 550-552, 597 

概率 分 布 probability distribution 47, 49-56, 58-61, 65-67, 69, 70, 359, 471, 515, 528, 530 
概率 质量 函数 probability mass function 50, 51, 90, 559, 570 

专家 之 积 product of expert 485 

乘法 法 则 product rule 53 
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成 比例 proportional 70 
提议 分 布 proposal distribution 399, 531, 533-535 
伪 似 然 pseudolikelihood 523-529, 570 


象限 对 quadrature pair 315 


量子 力学 quantum mechanics 48 


ZBA% radial basis function 124, 146, 169, 470 

随机 搜索 random search 368-370 

随机 变量 random variable 49-56, 58-60, 64, 65, 67, 69, 70, 471, 524, 529, 533 
值 域 range 33 

比率 匹配 ratio matching 526, 527, 563 

召回 率 recall 360, 381, 611 

接受 域 receptive field 286, 294 

再 循环 recirculation 428 

推荐 系统 recommender system 406—408 

重 构 reconstruction 428, 429, 435—438, 440, 441, 444-446, 607, 608 


重 构 误差 reconstruction error 418, 421, 425, 426, 430, 432, 436, 437, 439, 444, 445, 447, 453, 
513, 607 


整流 线性 rectified linear 151, 167, 229, 242, 272, 289 
整流 线性 变换 rectified linear transformation 152 


整流 线性 单元 rectified linear unit 14, 15, 150, 151, 165-172, 177, 194, 195, 232, 277, 361, 374, 
390, 432, 454 


整流 网 络 rectifier network 172, 173, 195 
循环 recurrence 449 
循环 卷 积 网 络 recurrent convolutional network 306 


循环 网 络 recurrent network 145, 245-247, 306, 318-323, 325, 329, 332, 337, 340, 342-346, 348, 
349, 352, 353, 356, 411, 416, 439, 473, 549, 575, 576 


循环 神经 网 络 recurrent neural network ix, 21, 22, 144, 145, 207, 227, 246, 305, 317-324, 327, 
329-340, 342-344, 347, 348, 351, 354, 357, 391, 402, 549, 584, 585, 595 


回归 regression 103 


TEM regularization 104, 105, 118, 122, 196-205, 207, 208, 211-219, 221, 226-235, 257, 354, 
358, 361, 363-365, 386-388, 420, 430, 431, 433, 437, 439, 445, 452, 454, 471 
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正则 化 regularize 238, 364, 420, 454, 455, 513, 527, 574, 583, 587 

正则 化 项 regularizer 104, 122, 126, 134, 361, 451, 453, 454, 466 

强化 学 习 reinforcement learning 23, 93, 231, 382, 408, 409, 457, 556, 587, 589 
关系 relation 409-411 

关系 型 数据 库 relational database 410 

重 参数 化 reparametrization 574, 587 

重 参数 化 技巧 reparametrization trick 587, 593, 609 


表示 representation 2-7, 16, 209, 218, 219, 296, 356, 366, 393, 394, 402, 403, 410, 429, 430, 432， 
439-441, 447 


表示 学 习 representation learning 4, 402, 416, 418, 447-449, 451, 456, 457, 460-462, 465, 471- 
473, 500, 513 


表示 容量 representational capacity 100 
储 层 计 算 reservoir computing 344 


受 限 玻 尔 效 曼 机 Restricted Boltzmann Machine 227, 300, 390, 407, 436, 437, 447, 449, 471, 489, 
498-500, 509, 513, 514, 516, 518-522, 532, 535-537, 560-567, 570, 571, 573, 574, 577, 578, 
580, 582, 584, 585, 590, 599, 604, 608, 609 


反 向 相关 reverse correlation 313 

反 向 模式 累加 reverse mode accumulation 191 
岭 回 归 ridge regression 198 

右 特征 向 量 right eigenvector 37 

右 奇 异 向 量 right singular vector 40 

风险 risk 235 


行 row 28 


扫 视 saccade 312 

鞍点 saddle point 75, 76, 79, 80, 82, 243-245, 247, 248, 265, 266 
无 鞍 牛 顿 法 saddle-free Newton method 244 

相同 same 296, 297 

样本 均值 sample mean 110 

样本 方差 sample variance 110, 111 

饱和 saturate 61 


标量 scalar 27 
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得 分 score 436-439, 525, 526 

得 分 匹配 score matching 436, 437, 444, 525-529, 605 
=hWS second derivative 77-80 

二 阶 导 数 测试 second derivative test 80 

第 二 层 second layer 145 

二 阶 方法 second-order method 244 

自 对 比 估 计 self-contrastive estimation 530 

自信 息 self-information 66 

语义 哈 希 semantic hashing 447 

半 受 限 波 尔 兹 曼 机 semi-restricted Boltzmann Machine 538 
半 监 督 semi-supervised 362, 414 

半 监 督学 习 semi-supervised learning 208, 209, 230, 449, 451, 453, 461, 462, 472 
可 分 离 的 separable 308, 448, 452 

分 离 的 separate 472 

分 离 separation 486, 487, 494 

情景 setting 457, 458, 468, 470 

浅 度 回 路 shadow circuit 471 

EK Shannon entropy xx, 66, 67 

香农 shannons 66 

塑造 shaping 278, 559, 610 

短 列 表 shortlist 395, 396 

sigmoid sigmoid 157-161, 168, 194, 277, 361, 424, 510 
sigmoid 信念 网 络 sigmoid Belief Network 590, 591 
简单 细胞 simple cell 310 

奇异 的 singular 34 

奇异 值 singular value 39, 40 

奇异 值 分 解 singular value decomposition 39-41, 130, 407 
奇异 向 量 singular vector 39 

跳跃 连接 skip connection 339, 340, 346, 347 

慢 特 征 分 析 slow feature analysis 420-422, 473 


waibbt.com DODDDDDOD 


dourbz/350DFo 


04 术语 


慢性 原则 slowness principle 420-422 

平滑 smoothing 393 

平滑 先 验 smoothness prior 136 

softmax softmax 448 

softmax 函数 softmax function 72, 73, 208, 225, 226, 324, 327, 371, 374, 382 
softmax 单元 softmax unit 374 

softplus softplus 169 

softplus HW softplus function 61-63, 158, 169 
生成 子 空间 span 33 

稀疏 sparse 202, 203, 217-219, 226, 430-433, 439 
稀疏 激活 sparse activation 195 


稀疏 编码 sparse coding 273, 422-425, 431, 439, 446, 450, 489, 491, 495, 500, 526, 537, 542, 543, 
550, 557, 581, 582, 590 


FAVE sparse connectivity 284-286 

FARMALL sparse initialization 258 

稀疏 交互 sparse interactions 284 

FALE sparse weights 284 

E+E spectral radius 344-346 

语音 识别 Speech Recognition 361, 376, 380, 389-391, 456 
sphering sphering 387 

尖峰 和 平板 spike and slab 316, 424, 425 

尖峰 和 平板 RBM spike and slab RBM 579-582 

虚假 模 态 spurious modes 519, 521 

HE square 34 

标准 差 standard deviation 54, 112, 237, 271, 272, 385-388 
标准 差 standard error 57, 111, 112, 237 

标准 正 态 分 布 standard normal distribution 57 

声明 statement 47, 48 

平稳 的 stationary 332 

FMD Stationary Distribution 507-509, 511 
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驻 点 stationary point 74, 84 

统计 效率 statistic efficiency 118 
统计 学 习 理 论 statistical learning theory 97 
统计 量 statistics 108 

最 陡 下 降 steepest descent 246 

随机 stochastic 237, 238 

随机 课程 stochastic curriculum 279 

随机 梯度 上 升 Stochastic Gradient Ascent 540 


随机 梯度 下 降 stochastic gradient descent 14, 87, 132, 133, 204, 205, 215, 227, 237-241, 245, 
250-253, 255, 257, 269, 276, 343, 352, 353, 355, 361, 379, 436, 505, 517, 573, 574, 588, 605 


随机 和 矩阵 Stochastic Matrix 507 


随机 最 大 似 然 stochastic maximum likelihood 520-523, 525, 527, 528, 563, 564, 567, 570-573, 
575 


流 stream 239 

步 幅 stride 286, 290, 292, 293, 296, 297, 300, 301, 305 

结构 学 习 structure learning 495, 497 

结构 化 概率 模型 structured probabilistic model 47, 69, 70, 471, 474, 476, 478-481, 494, 497, 558 
结构 化 变 分 推断 structured variational inference 543 

亚 原子 subatomic 48 

子 采 样 subsample 501 

求 和 法 则 sum rule 52 

和 - 积 网 络 sum-product network 471 

监督 supervised 92, 209, 210, 217, 230, 235, 309, 310, 316, 378, 424, 439, 448-452, 454, 556, 583 


监督 学 习 supervised learning xxi, 87, 92-94, 101, 107, 116, 122, 123, 125, 126, 134, 140, 144, 
209, 231, 235, 341, 361, 396, 406, 408, 409, 414, 431, 448, 449, 451, 452, 454-457, 461, 
462, 471, 528, 593 


监督 学 习 算法 supervised learning algorithm 92 
监督 模型 supervised model 452 

监督 预 训练 supervised pretraining 455 
341) support vector 124, 465 


代理 损失 函数 surrogate loss function 236, 247 
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符号 symbol 181 
符号 表示 symbolic representation 181, 465, 467 


对 称 symmetric 36 


切面 距离 tangent distance 231 

切 平面 tangent plane 439, 442, 445 

正切 传播 tangent prop 231-233 

目标 target 92-95, 101, 102, 105, 108, 116, 122, 128, 134, 135, 137, 138, 141 

泰勒 taylor 79, 81, 202, 214, 241 

导师 驱动 过 程 teacher forcing 326, 327 

温度 temperature 513 

回 火 转移 tempered transition 513 

回 火 tempering 513 

3k tensor 28 

测试 误差 test error 97, 98, 101, 103, 240, 362, 364, 365, 370, 371, 374, 451, 453, 454 
测试 集 test set 91, 95, 97, 98, 106, 107, 112, 234, 236, 251, 276, 362, 363, 365, 371, 374, 453 
碰撞 情况 the collider case 488 

绑 定 的 权重 tied weights 284 

Tikhonov 正则 Tikhonov regularization 198 

平 铺 卷 积 tiled convolution 299, 300, 302, 304 

时 延 神经 网 络 time delay neural network 313, 318, 390 


时 间 步 time step 167, 246, 247, 264, 318-334, 338-340, 342, 345, 347-349, 351-353, 356, 391, 
403, 404, 422, 576, 584, 604, 608, 609 


Toeplitz 矩阵 Toeplitz matrix 283 

标记 token 391, 392, 410 

SZ tolerance 85, 548 

地 质 ICA topographic ICA 420 

训练 误差 training error 97, 98, 100-103, 235, 240, 363-365, 371, 374, 453 


WAR training set 97, 98, 234-240, 242, 248, 250, 251, 253, 255, 259, 261-264, 266, 268, 273, 
276, 279, 359, 361-363, 365, 366, 371, 372, 374, 461, 463, 467 


转录 transcribe 89, 91, 94 
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转录 系统 transcription system 358, 360, 371, 373, 374 
迁移 学 习 transfer learning 453, 455-460, 603 

转移 transition 321 

转 置 transpose 29 

三 角 不 等 式 triangle inequality 34 

三 角形 化 triangulate 492 

三 角形 化 图 triangulated graph 492 


三 元 语法 trigram 392 


无 偏 unbiased 109, 239, 240, 250, 502-504, 527 
无 偏 样本 方差 unbiased sample variance 111 
REE undercomplete 429, 430 

欠 定 的 underdetermined 551 

欠 估 计 underestimation 505 

欠 拟 合 underfitting 98, 99, 105, 114, 196-198, 240, 294, 358, 364, 365, 371, 372, 374, 597, 612 
欠 拟 合 机 制 underfitting regime 101 

Fifi underflow 72, 73 

潜在 underlying 235, 236, 461-465, 469-473 
潜在 成 因 underlying cause 460, 462, 472 

无 向 undirected 69 


无 向 模型 undirected Model 481-487, 489-492, 494, 499, 501, 509, 514-517, 537, 556, 563, 564, 
590 


展开 图 unfolded graph 321, 322, 325, 391 

展开 unfolding 319-321, 339, 391 

均匀 分 布 uniform distribution 51, 52, 55, 67, 164, 455 
一 元 语法 unigram 392, 399 

单 峰值 unimodal 513, 555 

单元 unit 146 

单位 范 数 unit norm 36, 43 

单位 向 量 unit vector 36 


万 能 近似 定理 universal approximation theorem 171, 433 
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万 能 
万 能 
未 标注 unlabeled 449, 453, 454, 458, 460, 462, 471 


近似 器 universal approximator 60, 470, 471, 559 


数 近似 器 universal function approximator 151 
未 归 一 化 概率 函数 unnormalized probability function 482, 483, 485, 492 
非 共 享 卷 积 unshared convolution 298 


无 监督 unsupervised 20, 21, 92, 209, 217, 227, 362, 390, 414, 422, 424, 439, 446, 448-452, 454, 
457, 458, 461, 462 


无 监督 学 习 unsupervised learning 87, 92-94, 107, 128, 134, 206, 209, 210, 233, 235, 362, 390, 
414, 431, 442, 449-454, 456, 457, 461-463, 528, 609 


无 监督 学 习 算 法 unsupervised learning algorithm 92 


无 监督 预 训练 unsupervised pretraining 449, 451-456 


有 效 valid 283, 296, 297 

验证 集 validation set 106, 236, 241, 258, 367-369, 454 

梯度 消失 与 爆炸 问题 vanishing and exploding gradient problem 246, 247, 258 
梯度 消失 vanishing gradient 247 

Vapnik-Chervonenkis 维度 Vapnik-Chervonenkis dimension 100, 466, 469 
变量 消去 variable elimination 546 

方差 variance 54, 56, 57, 111, 196-198, 201, 205, 219 

方差 减 小 variance reduction 588, 589 

变 分 自 编码 器 variational auto-encoder 195, 430, 505, 557, 591, 593-596, 599, 605 
变 分 导数 variational derivative 550 

变 分 自由 能 variational free energy 538 

变 分 推断 variational inference 496, 498, 525 

去 品 denoise 128, 385 

向 量 vector 27 

虚拟 对 抗 样本 virtual adversarial example 230 

虚拟 对 抗 训练 virtual adversarial training 451 

可 见 层 visible layer 5 

V- 结 构 V-structure 488, 538 


REAR wake sleep 556, 564, 591 
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warp warp 378, 379, 382 

支持 向 量 机 support vector machine 123-125, 153, 309, 366, 521 
无 向 图 模型 undirected graphical model 515, 530 

权重 weight 94 


权重 衰减 weight decay 104-106, 198-201, 204, 205, 208, 212, 214, 216, 217, 226, 227, 242, 257, 
273, 363-366, 431, 453, 523, 543 


权重 比例 推断 规则 weight scaling inference rule 225-228 
权重 空间 对 称 性 weight space symmetry 242 

条 件 概率 分 布 conditional probability distribution 533 
白化 whitening 387 

宽度 width 146 

赢 者 通 吃 winner-take-all 161 

正切 传播 tangent propagation 473 

流 形 正切 分 类 器 manifold tangent classifier 473 

词 能 入 word embedding 362, 394, 403, 405, 407, 453, 458 


词义 消 歧 word-sense disambiguation 411 


零 数据 学 习 zero-data learning 458, 460 


零 次 学 习 zero-shot learning 458-460 
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